(44? EEE 


数据 挖掘 ;方法 与 应 用 


清华 大 学 出 版 社 


清华 大 学 计算 机 系列 教材 


数据 挖掘 : 方法 与 应 用 


清华 大 学 出 版 社 
ko 京 


内 容 简 介 


本 书 主要 根据 作者 近 几 年 在 清华 大 学 面向 研究 生 和 本 科 生 开设 的 “数据 挖掘 :方法 与 应 用 ”课程 的 教 
学 实践 与 积累 ,参考 近 几 年 国外 著名 大 学 相关 课程 的 教学 体系 ,系统 的 介绍 数据 挖掘 的 基本 概念 和 基本 原 
理 方法 ;结合 一 些 典 型 的 应 用 实例 展示 用 数据 挖掘 的 思维 方法 求解 问题 的 一 般 性 模式 与 思路 。 

本 书 可 作为 有 一 定数 据 结构 数据库 和 程序 设计 基础 的 研究 生 或 本 科 生 开展 数据 挖掘 知识 学 习 和 研 


究 的 人 门 性 教材 与 参考 读物 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ,无 标签 者 不 得 销售 。 


版 权 所 有 ,侵权 必 究 。 侵 权 举 报 电话 : 010 一 62782989 13701121933 
图 书 在 版 编目 (CIP) 数 据 
数据 挖掘: 方法 与 应 用 / 徐 华 编著 . 一 北京 : 清华 大 学 出 版 社 ，2014 
清华 大 学 计算 机 系列 教材 
ISBN 978-7-302-36901-1 
IL. O8- I. Of M. @ 数 据 采 集 一 高 等 学 校 一 教材 人. OTP274 


中 国 版 本 图 书馆 CIP 数据 核 字 (2014) 第 131376 号 


责任 编辑 : 白 立 军 顾 冰 
封面 设计 ， 
责任 校对 : 焦 丽 丽 
责任 印 制 : 
出 版 发 行 : 清华 大 学 出 版 社 
网 dE: http://www. tup. com, en, http://www. wqbook. com 
地 址 : 北京 清华 大 学 学 研 大 厦 A E 邮 编 : 100084 
社 总 机 :010-62770175 邮 «MY: 010-62786544 
投稿 与 读者 服务 : 010-62776969.c-service@ tup. tsinghua. edu. cn 
KR 量 反 馈 : 010-62772015,zhiliang@tup. tsinghua. edu. cn 
Rm # 下 #: http://www. tup. com. cn,010-62795954 
印 刷 者 
装 订 者 
经 H: 全 国 新 华 书店 
开 本 : 185mmX260mm 印 张 : 12 字 数 : 286 FE 
版 ”次 : 2014 年 9 月 第 1 版 FDR: 2014 年 9 月 第 1 次 印刷 
Ab: 1~ 000 
E ft: .00 元 
产品 编号 : 044864-01 


序 


“清华 大 学 计算 机 系列 教材 "已 经 出 版 发 行 了 30 余 种 ,包括 计算 机 科学 与 技术 专业 的 基 
础 数学 ,专业 技术 基础 和 专业 等 课程 的 教材 ,覆盖 了 计算 机 科学 与 技术 专业 本 科 生 和 研究 生 
的 主要 教学 内 容 。 这 是 一 批 至 今 发 行 数量 很 大 并 赢得 广大 读者 赞誉 的 书籍 ,是 近年 来 出 版 
的 大 学 计算 机 专业 教材 中 影响 比较 大 的 一 批 精品 。 

本 系列 教材 的 作者 都 是 我 熟悉 的 教授 与 同事 ,他 们 长 期 在 第 一 线 担 任 相关 课程 的 教学 
工作 ,是 一 批 很 受 本 科 生 和 研究 生 欢迎 的 任课 教师 。 编 写 高 质量 的 计算 机 专业 本 科 生 (和 研 
究 生 ) 教 材 , 不 仅 需要 作者 具备 丰富 的 教学 经 验 和 科研 实践 ,还 需要 对 相关 领域 科技 发 展 前 
沿 的 正确 把 握 和 了 解 。 正 因为 本 系列 教材 的 作者 们 具备 了 这 些 条 件 , 才 有 了 这 批 高 质量 优 
秀 教 材 的 产生 。 可 以 说 ,教材 是 他 们 长 期 辛勤 工作 的 结晶 。 本 系列 教材 出 版 发 行 以 来 ,从 其 
发 行 的 数量 、 读 者 的 反映 ,已 经 获得 的 国家 级 与 省 部 级 的 奖励 ,以 及 在 各 个 高 等 院 校 教 学 中 
所 发 挥 的 作用 上 ,都 可 以 看 出 本 系列 教材 所 产生 的 社会 影响 与 效益 。 

计算 机 学 科 发 展 异常 迅速 ,内 容 更 新 很 快 。 作 为 教材 ,一 方面 要 反映 本 领域 基础 性 、 普 
遍 性 的 知识 ,保持 内 容 的 相对 稳定 性 ; 另 一 方面 ,又 需要 紧 跟 科 技 的 发 展 ,及 时 地 调整 和 更 新 
内 容 。 本 系列 教材 都 能 按照 自身 的 需要 及 时 地 做 到 这 一 点 。 如 王 爱 英 教授 等 编著 的 《计算 
机 组 成 与 结构 》、 戴 梅 莹 教授 等 编著 的 (微型 计算 机 技术 及 应 用 ) 都 已 经 出 版 了 第 四 版 , 严 蔚 
敏 教授 的 (数据 结构 》 也 出 版 了 三 版 ,使 教材 既 保 持 了 稳定 性 ,又 达到 了 先进 性 的 要 求 。 

本 系列 教材 内 容 丰 富 ,体系 结构 严谨 ,概念 清晰 ,易学 易 懂 ,符合 学 生 的 认 知 规律 ,适合 
教学 与 自学 , 深 受 广 大 读者 的 欢迎 。 系 列 教材 中 多 数 配 有 丰富 的 习题 集 、 习 题解 答 、 上 机 及 
实验 指导 和 电子 教案 ,便于 学 生理 论 联系 实际 地 学 习 相 关 课 程 。 

随 着 我 国 进一步 的 开放 ,我 们 需要 扩大 国际 交流 ,加 强 学 习 国外 的 先进 经 验 。 在 大 学 教 
材 建设 上 ,我 们 也 应 该 注意 学 习 和 引进 国外 的 先进 教材 。 但 是 “清华 大 学 计算 机 系列 教材 ” 
的 出 版 发 行 实践 以 及 它 所 取得 的 效果 告诉 我 们 ,在 当前 形势 下 ,编写 符合 国情 的 具有 自主 版 
权 的 高 质量 教材 仍 具 有 重大 意义 和 价值 。 它 与 国外 原版 教材 不 仅 不 矛盾 ,而 且 是 相辅相成 
的 。 本 系列 教材 的 出 版 还 表明 ,针对 某 一 学 科 培 养 的 要 求 , 在 教育 部 等 上 级 部 门 的 指导 下 ， 
有 计划 地 组 织 任课 教师 编写 系列 教材 ,还 能 促进 对 该 学 科 科学 、 合 理 的 教学 体系 和 内 容 的 
研究 。 

我 希望 今后 有 更 多 、 更 好 的 我 国 优秀 教材 出 版 。 


清华 大 学 计算 机 系 教授 ,中 国 科学 院 院士 
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近年 来 , 随 着 计算 机 硬件 资源 成 本 的 持续 下 降 , 软 件 开发 技术 的 不 断 进步 ,基于 不 同 领 
域 的 大 数据 (Big Data) 研究 与 应 用 性 研发 工作 正在 如 火 如 禁地 开展 起 来 。 作 为 大 数据 控 
据 、 分 析 与 处 理 的 关键 方法 与 技术 之 一 ,“ 数 据 挖掘 ”正在 被 不 同 的 专业 领域 所 关注 。“ 数 据 
挖掘? 也 逐渐 演变 成 一 门 具 有 通用 性 和 基础 性 的 数据 处 理 方法 与 技术 。 正 是 在 这 样 的 大 环 
境 背 景 之 下 ,作者 于 2011 年 春季 学 期 开始 开设 了 面向 清华 大 学 非 计算 机 专业 学 生 的 专业 课 
程 “数据 挖掘 : 方法 与 应 用 ”"。 开 设 这 门 课程 的 主要 目的 是 为 了 让 不 同 专业 领域 的 学 生 能 够 
掌握 数据 挖掘 的 基本 概念 、 基 本 方法 和 基本 算法 实现 技术 ,能 够 针对 不 同 专业 领域 的 数据 挖 
据 与 分 析 问 题 , 开 展 相 应 的 数据 挖掘 与 分 析 工 作 。 

参照 国外 相关 大 学 的 教材 .课件 和 应 用 实例 ,本 书 内 容 的 编排 顺序 主体 上 是 按照 一 个 典 
型 的 知识 发 现 过 程 进 行 编排 的 ,分 别 是 基本 概念 ,数据 预 处 理 .数据 仓库 构建 .关联 规则 挖掘 
与 相关 性 分 析 、 聚 类 分 析 ( 无 监督 的 学 习 分 类 )、 分 类 方法 (有 监督 的 学 习 分 类 ) 。 在 相关 方法 
与 算法 讲解 的 基础 之 上 ,进一步 展示 用 本 书 所 介绍 的 数据 挖掘 与 相关 知识 开展 的 一 个 快速 
消费 品 领域 消费 者 调查 问卷 的 挖掘 与 分 析 实 例 ,以 及 在 此 基础 上 所 构建 的 一 个 消费 者 皮肤 

作为 面向 非 计算 机 专业 学 生 的 课程 ,本 书 以 介绍 概念 和 讲解 方法 的 主要 思想 为 主 。 对 
于 有 进一步 深入 学 习 需 求 的 学 生 ,建议 进一步 研读 高 级 机 器 学 习 、 高 级 数据 挖掘 等 知识 内 容 
相关 的 书籍 。 在 课程 教学 计划 安排 上 ,建议 理论 方法 讲解 安排 32 学 时 ,同时 安排 16 学 时 的 
课程 实践 与 讨论 环节 ,以 进一步 增强 学 生 在 数据 挖掘 与 分 析 方面 的 应 用 实战 能 力 ,提升 未 来 
对 于 本 专业 领域 数据 挖掘 与 分 析 的 能 力 。 

由 于 作者 水 平 所 限 ,本 书 在 编写 过 程 中 丝 漏 和 朴 忽 之 处 在 所 难免 , 望 读者 不 将 指正 。 
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关于 教学 计划 编排 的 建议 


采用 本 书 作为 教材 时 , 视 学 生 具 体 情 况 ,教学 目标 及 课时 总 量 的 不 同 , 授 课 教师 可 从 以 
下 两 种 典型 的 学 时 分 配方 案 中 选择 其 一 。 


BSAS 教学 方案 与 学 时 分 配 JRA SRB 
部 分 章 节 
=FR 第 1 章 绪论 1,1~1.8 2 2 
第 2 章 数据 预 处 理 2.1~2.7 4 4 
第 3 章 数据 仓库 3.1~3.8 2 2 
Spee 第 4 章 ”相关 性 与 关联 规则 4.1~4.6 4 4 
第 5 章 ”分 类 和 预测 5. 16;.10 6 6 
第 6 章 聚 类 分 析 6. 1 一 6.9 6 6 
第 7 章 数据 挖掘 应 用 7.1~7.6 2 2 
讨论 课 1 文献 调研 讨论 课 2 3 
三 、 应 用 与 讨论 讨论 课 2 课程 设计 方案 讨论 课 3 
讨论 课 3 课程 成 果 展 示 讨论 课 2 3 
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1.1 应 用 背景 


自从 20 世纪 80 年 代 以 来 , 随 着 信息 技术 的 高 速 发 展 ,特别 是 大 型 商业 数据 库 的 普及 应 
用 ,各 个 单位 、 各 个 行业 都 积累 了 一 定 规模 或 超大 规模 (海量 ) 的 数据 信息 。 这 些 数据 信息 往 
往 以 一 定 的 形式 存储 在 各 种 类 型 的 商业 数据 库 或 者 文件 系统 中 。 近 年 来 , 随 着 社会 生活 与 
商业 应 用 的 发 展 ,很 多 公司 和 个 人 都 迫切 希望 能 从 所 拥有 的 海量 数据 集中 发 现 对 其 生活 、 工 
作 等 有 帮助 的 潜在 信息 或 者 规律 , 即 希望 能 够 从 已 有 的 数据 中 发 现 一 些 “ 知 识 ”。 

男 一 方面 ,互联 网 的 普及 与 发 展 使 得 互联 网 也 成 为 当今 社会 一 个 重要 的 数据 源 。 我 国 
的 网 页 数量 已 经 从 2006 年 的 45 亿 网 页 规模 迅速 膨胀 为 2013 年 的 1500 亿 网 页 规模 。 这 些 
页 面 中 包含 了 丰富 的 信息 内 容 , 从 这 些 海量 数据 中 发 现 目 前 工作 所 需 的 有 用 信息 或 者 知识 
已 经 成 为 人 们 的 普遍 需求 。 尽 管 在 互联 网 上 有 像 Google、 百 度 、 搜 狗 等 这 样 一 些 搜索 引擎 
工具 ,但 这 些 网 络 信息 的 搜索 工具 主要 在 信息 的 物理 层面 上 辅助 人 们 做 好 相关 的 信息 检索 
工作 ,并 不 能 根据 用 户 的 需求 从 被 检索 信息 中 发 现 或 者 获取 潜在 的 知识 。 中 国 互联 网 网 页 
数量 与 增长 率 变化 如 图 1. 1 所 示 。 
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图 1.1 中 国 互联 网 网 页 数量 与 增长 率 变化 图 


面向 以 上 对 于 数据 分 析 的 需求 ,一 门 跨越 数据 库 技术 、 信 息 检索 技术 、 算 法、 统计 学 和 机 
器 学 习 等 领域 的 新 兴 研 究 领 域 一 一 数据 挖 气 ?" 应 运 而 生 。 数 据 挖 掘 就 是 指 从 当前 数据 集中 
发 现 并 获取 有 用 信息 的 过 程 。 数 据 挖掘 是 伴随 着 数据 库 技术 的 出 现 而 出 现 的 ,同时 它 的 发 
展 为 商业 应 用 和 科学 研究 所 驱动 。 

下 面 探 讨 推动 数据 挖掘 方法 与 技术 发 展 的 几 个 关键 因素 。 首 先 介 绍 商业 上 驱动 数据 挖 
据 技 术 发 展 的 原动力 ;其 次 介绍 科学 研究 上 驱动 数据 挖掘 技术 发 展 的 潜在 需求 ;最 后 介绍 和 
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讨论 数据 挖掘 技术 与 数据 库 技 术 的 并 行 发 展 历 程 。 
1.1.1 商业 上 的 驱动 


当前 ,商业 领域 是 数据 挖掘 技术 重要 的 应 用 领域 之 一 。 其 数据 主要 来 自 于 电子 商务 数 
据 、Web 数据 、 商 场 或 者 零售 连锁 店 的 销售 数据 、 金 融 与 信用 卡 数据 、 各 类 交易 数据 等 。 电 
子 商务 数据 主要 包括 发 生 电子 商务 行为 相关 的 所 有 数据 ,例如 网 络 书店 上 的 电子 商务 数据 ， 
包括 图 书 的 销售 数据 、 图 书 的 库存 数据 、 图 书 的 进货 数据 、 购 书 人 的 相关 信息 、 购 书 人 对 于 图 
书 的 浏览 日 志 信 息 以 及 图 书 检 索 信息 等 。Web 数据 主要 是 指 从 各 大 网 站 页 面 上 所 获得 的 
新 闻 、 评 论 等 相关 数据 信息 。 金 融 数 据 主要 是 指 银 行 的 所 有 交易 数据 。 信 用 卡 数 据 主要 包 
括 持 卡 人 持 卡 消费 的 所 有 交易 数据 。 交 易 数 据 主要 包括 商业 领域 的 各 类 交易 数据 ,如 股票 
交易 ,期 货 交 易 等 相关 的 数据 。 

推动 数据 挖掘 技术 在 商业 领域 研发 与 应 用 的 一 个 直接 原因 是 商用 计算 机 等 基础 硬件 设 
施 的 价格 越 来 越 便宜 ,同时 计算 机 的 运算 能 力 越 来 越 强 , 即 性 价 比 越 来 越 高 。 由 于 计算 机 等 
基础 设备 性 能 价格 比 的 提升 ,使 得 对 于 商业 领域 的 海量 信息 处 理 成 本 大 幅度 降低 ,数据 挖掘 
成 为 可 能 。 

推动 数据 挖掘 技术 在 商业 领域 研发 与 应 用 的 另外 一 个 原因 是 来 自 于 商业 领域 强大 的 竞 
争 压 力 。 例 如 ,在 金融 业务 领域 ,当前 国外 各 大 金融 机 构 为 了 给 客户 提供 完善 优质 的 金融 业 
务 服务 ,往往 会 采用 数据 挖掘 方法 进行 客户 关系 的 管理 , 即 首 先 对 客户 类 型 进行 区 分 ,其 次 
对 客户 的 消费 习惯 进行 分 析 , 最 后 根据 用 户 的 消费 习惯 为 客户 推荐 相应 的 金融 服务 。 由 于 
采用 数据 分 析 与 挖掘 技术 给 各 大 金融 机 构 带 来 巨大 的 效益 ,在 美国 各 大 商业 银行 均 构建 了 
面向 自身 业务 内 容 的 数据 挖掘 与 分 析 系 统 。 


1.1.2 科学 研究 上 的 驱动 


数据 挖掘 与 分 析 研 究 工 作 发 展 的 另外 一 个 直接 驱动 力 来 自 于 科学 研究 工作 的 需求 。 在 
实际 的 科学 实验 中 ,很 多 大 型 的 实验 仪器 设备 或 者 实验 系统 会 以 很 高 的 生成 速度 产生 并 存 
储 大 量 的 数据 ,这 样 的 数据 产生 与 存储 的 速度 往往 是 每 小 时 GB 量 级 的 数据 。 典 型 的 科学 
实验 系统 包括 卫星 的 远程 传 感 数 据 、 天 文 望远镜 的 太空 扫描 数据 、 微 阵列 产生 的 基因 表达 式 
数据 、 科 学 仿真 产生 的 工 级 别 的 仿真 实验 数据 、 石 油 探测 上 的 地 质数 据 、 气 象 卫星 的 云图 数 
据 等 。 针 对 上 述 规 模 的 数据 ,传统 的 技术 很 难 实现 对 于 此 类 源 数据 的 分 析 与 挖掘 工作 。 海 
量 信息 所 研究 的 数据 挖掘 ( 即 大 数据 挖掘 与 分 析 方法 ) 方 法 与 技术 能 够 适用 于 超大 规模 数据 
的 应 用 挖掘 与 分 析 工 作 。 数 据 挖掘 技术 可 以 帮助 不 同 领域 的 科学 家 实现 对 于 数据 的 分 类 与 
划分 、 完 成 科学 的 假设 性 验证 等 方面 的 工作 。 


1.1.3 数据 挖掘 伴随 着 数据 库 技 术 而 出 现 


数据 挖掘 技术 是 伴随 着 数据 库 技术 的 发 展 而 兴起 的 。 回 顾 数据 库 技术 的 发 展 历程 ,其 
发 展 主要 可 以 分 为 如 下 几 个 阶段 。 
A) 在 20 世纪 60 年 代 , 随 着 电子 计算 机 的 出 现 ,应 用 的 发 展 需要 使 用 计算 机 对 不 同业 
务 领域 的 数据 进行 收集 ,因此 “数据 库 (DataBase)” 这 一 特殊 的 文件 系统 应 运 而 生 。 数 据 库 
是 “按照 数据 结构 来 组 织 存储 和 管理 数据 的 仓库 ?。 管 理 数据 库 的 系统 通常 称 为 数据 库 管 
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理 系统 (DataBase Management System,DBMS)。 随 着 数据 库 应 用 的 普及 ,基于 计算 机 和 数 
据 库 技术 的 信息 管理 系统 也 应 运 而 生 , 它 主要 面向 不 同业 务 领域 对 于 数据 管理 的 需要 ,利用 
数据 库 技 术 实 现 对 于 信息 的 管理 。 伴 随 着 网 络 技术 的 兴起 ,网 络 化 的 数据 库 管理 系统 
(Network DBMS) 也 得 到 了 深入 研究 与 发 展 。 

(2) 随 着 数据 库 技 术 的 发 展 ,1970 年 美国 IBM 公司 圣何塞 (San Jose) 研 究 室 的 研究 员 
E. F. Codd 首次 提出 了 数据 库 系统 的 关系 模型 ,开创 了 数据 库 的 关系 方法 和 关系 数据 理论 
的 研究 ,为 数据 库 技术 奠定 了 理论 基础 。 由 于 E. F. Codd 的 杰出 工作 ,他 于 1981 年 获得 
ACM 图 灵 奖 (国际 计算 机 领域 的 最 高 奖 )。 关 系 模型 由 关系 数据 结构 、 关 系 操作 集合 和 关 
系 完整 性 约束 三 部 分 组 成 。 关 系数 据 库 是 支持 关系 模型 的 数据 库 系统 。 

(3) 20 世纪 80 年 代 以 来 ,各 大 数据 库 系 统 软 件 商 新 推出 的 数据 库 管理 系统 (DBMS) 几 
乎 都 支持 关系 模型 , 非 关 系 型 系统 的 产品 也 大 都 加 上 了 关系 接口 。 数 据 库 领 域 当前 的 研究 
工作 也 都 是 以 关系 方法 为 基础 。 在 此 期 间 ,一 些 更 高 级 的 先进 数据 模型 被 提出 ,例如 扩展 的 
关系 数据 模型 (Extended Relational Data Model) 面向 对 象 模 型 (Object Oriented Model) 
和 规约 模型 (Reduction Model) 等 被 提出 ,相应 地 数据 库 技 术 也 获得 了 持续 发 展 。 在 这 一 发 
展 阶段 ,数据 库 技 术 另 一 个 重要 的 进步 是 出 现 了 面向 应 用 的 数据 管理 系统 ,例如 面向 空间 探 
索 、 科 学 研究 和 工程 等 应 用 的 数据 库 管 理 系 统 。 

(4) 20 世纪 90 年 代 以 来 , 随 着 数据 库 技术 的 应 用 普及 ,人 们 开始 关注 从 数据 库 中 发 现 
和 获取 隐 仿 的 知识 ,于 是 对 于 数据 挖掘 方法 的 研究 取得 了 较 深 入 的 进展 。 特 别 是 数据 仓库 
(Data Warehouse) 概 念 的 提出 ,相关 领域 专家 又 深入 研究 了 多 媒体 数据 库 (Multimedia 
Databases) 和 基于 Web 信息 的 数据 库 (Web Databases) 。 

(5) 进入 21 世纪 以 来 ,数据 挖掘 技术 又 在 应 用 的 深度 和 广度 上 获得 了 进一步 的 拓展 。 
特别 是 在 数据 流 的 管理 与 挖掘 上 取得 了 重要 的 研究 进展 。 在 包括 金融 生物、 医药. 产品 研 
发 等 多 个 领域 ,数据 挖掘 技术 获得 了 广泛 的 应 用 ,在 取得 一 定 经 济 效益 的 同时 ,使 相关 企业 
的 核心 竞争 力 获得 了 显著 提升 。 近 年 来 , 随 着 Web 技术 的 广泛 应 用 ,针对 Web 内 容 的 数据 
挖掘 研究 也 获得 了 快速 进展 。 


1.2 什么 是 数据 挖掘 


自 20 世纪 90 年 代 以 来 , 随 着 数据 库 技术 应 用 的 普及 ,数据 挖掘 (Data Mining) 技 术 已 
经 引起 了 学 术 界 、 产 业界 的 极 大 关注 ,其 主要 原因 是 当前 各 个 单位 已 经 存储 了 超大 规模 , 即 
海量 规模 的 数据 ,未 来 能 够 真正 发 挥 这 些 数 据 的 实际 价值 。 由 于 数据 分 析 和 管理 工作 的 应 
用 需要 , 需 将 这 些 数据 转换 成 有 用 的 信息 和 知识 , 即 从 传统 的 数据 统计 向 数据 挖掘 与 分 析 进 
行 转换 。 另 外 ,通过 数据 挖掘 技术 获取 的 信息 和 知识 还 可 以 广泛 应 用 于 各 个 行业 领域 ,包括 
市 场 开 拓 与 分 析 、 商 务 管理 .生产 控制 .工程 设计 和 科学 探索 等 方面 。 


1.2.1 基本 描述 


“数据 挖掘 ”也 称 为 从 数据 中 发 现 知识 ,具体 来 讲 就 是 从 大 规模 海量 数据 中 抽取 人 们 所 

感 兴趣 的 非 平凡 的 、 隐 含 的 ,事先 未 知 的 和 具有 潜在 用 途 的 模式 或 者 知识 。 回 顾 数据 挖掘 研 

究 的 历程 ,不 同 的 名 称 都 被 赋予 了 数据 挖掘 的 含义 ,包括 从 数据 库 中 发 现 知识 (Knowledge 
Bre 


Discovery in databases (KDD)) .知识 抽取 (Knowledge Extraction) 数据 /模式 分 析 (Datay/ 
pattern Analysis) 数据 考古 (Data Archeology) , 3 #8 ii #7 (Data Dredging)、 信 息 收 获 
(Information Harvesting) il fi ML # fig (Business Intelligence) 等 概念 都 被 赋予 了 数据 挖掘 的 
含义 。 

在 解释 数据 挖掘 的 概念 时 ,有 一 点 需要 特别 强调 ,并 非 所 有 与 数据 库 相 关 的 操作 与 分 析 
都 属于 数据 挖掘 研究 的 范畴 。 例 如 ,对 于 数据 库 简单 的 搜索 与 查询 处 理 操作 并 不 属于 数据 
挖掘 研究 的 内 容 ; 而 对 于 基于 数据 库 已 有 的 数据 所 构建 的 规约 式 专家 系统 也 不 属于 数据 挖 
掘 的 范畴 。 


1.2.2 关于 知识 发 现 


从 一 组 大 规模 或 者 海量 数据 中 发 现 和 挖掘 新 的 具有 潜在 用 途 的 模式 或 者 知识 的 过 程 也 
被 称 为 知识 发 现 。 如 图 1. 2 所 示 ,一 个 典型 的 知识 发 现 过 程 包括 如 下 几 个 主要 步骤 : 首先 
将 存放 在 数据 库 中 的 数据 经 过 数据 清洗 ,数据 抽取 、 数 据 转换 .数据 集成 等 预 处 理 过 程 存 人 
数据 仓库 中 ;其 次 ,将 清洗 过 的 数据 再 次 经 数据 抽取 或 者 集成 等 过 程 ,获得 任务 相关 数据 ;第 
三 ,在 此 基础 上 进一步 进行 数据 挖掘 过 程 ,获得 潜在 的 有 价值 的 模式 或 者 规律 ;最 后 进行 模 
式 评估 ,评估 所 获得 知识 的 有 效 性 ,以 此 最 终 获 得 相关 知识 。 
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1. 数据 挖掘 与 知识 发 现 


从 严格 意义 上 讲 ,数据 挖掘 与 知识 发 现 是 有 区 别 的 。 对 于 数据 库 中 的 知识 发 现 , 主 要 是 
指 发 现 数据 中 有 用 的 信息 和 模式 的 过 程 。 而 数据 挖掘 是 指 在 知识 发 现 过 程 中 使 用 相关 的 算 
法 抽取 有 用 的 信息 或 者 模式 的 过 程 。 


2. 数据 挖掘 与 商业 智能 


在 商业 领域 ,往往 将 对 于 商业 数据 的 智能 分 析 与 挖掘 的 过 程 称 为 商业 智能 。 图 1. 3 中 ， 
一 个 典型 的 商业 智能 过 程 自 底 向 上 分 别 在 5 个 层次 开展 相关 的 商业 智能 分 析 工 作 。 在 最 底 
层 是 数据 源 ,主要 包括 论文 文件、 网络 文档 科学 实验 .数据 库 系 统 等 来 自 不 同 源头 的 数据 
信息 ,这 一 层次 的 工作 主要 面向 数据 库 分 析 师 ;第 二 层次 为 数据 预 处 理 、 数 据 集成 ,并 形成 相 
应 的 数据 仓库 ;第 三 层次 对 经 过 预 处 理 的 数据 进行 统计 汇总 、 综 合 查询 和 生成 报告 等 工作 ; 
第 四 层次 对 有 用 的 信息 进行 数据 挖掘 工作 ,第 三 和 第 四 层次 的 工作 主要 面向 数据 分 析 师 ;第 
五 层次 将 数据 挖掘 的 结果 以 一 定 的 形式 展现 出 来 ,用 到 了 数据 的 科学 计算 可 视 化 技术 ,这 一 
层次 的 工作 主要 是 面向 商业 分 析 师 ;第 六 层次 是 决策 层 , 主 要 是 根据 发 现 的 知识 进行 商业 上 
的 决策 ,这 一 层次 的 工作 主要 是 面向 商业 领域 的 决策 者 。 
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图 1.2 一 个 典型 的 知识 发 现 过 程 


| 模式 评估 知识 


人 越 来 越 接近 商业 系统 用 户 分 级 A 


领域 的 决策 支持 
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数据 主观 商业 数据 分 析 师 
可 视 化 技术 
SRH 
信息 数据 分 析 师 

BERR 

统计 汇总 、 查 询 和 报告 
数据 巴 处 理 

数据 清洗 、 集 成 、 转 换 等 
PESA 数据 库 分 析 师 
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图 1.3 数据 挖掘 在 商业 智能 实现 过 程 中 的 关系 图 


1.3 数据 挖掘 的 主要 技术 


1. 数据 挖掘 融合 了 多 学 科 领 域 的 知识 


数据 挖掘 技术 利用 了 来 自如 下 一 些 领 域 的 方法 和 技术 : 

(1) 来 自 于 数据 库 技术 的 关系 数据 模型 结构 化 查询 语言 (SQL) ,关联 规则 算法 .数据 
仓库 .扩展 性 技术 等 ; 

(2) 计算 机 算法 相关 的 数据 结构 、 算 法 分 析 与 设计 的 理论 方法 ; 

(3) 信息 检索 相关 的 相似 度 度量 、 分 层 聚 类 、 信 息 检 索 系 统 、 近 似 检索 、Web 搜索 引 
擎 等 

(4) 来 自 统计 学 的 贝 叶 斯 理论 .回归 分 析 、 最 大 期 望 估 计算 法 K 均值 算法 、 时 间 序 列 分 
析 等 ; 

(5) 来 自 机 器 学 习 的 神经 网 络 ,决策 树 ,支持 向 量 机 等 算法 。 

近年 来 ,数据 挖掘 也 吸纳 了 来 自 其 他 研究 领域 的 思想 方法 ,这 些 领域 包括 最 优化 .进化 
计算 、 信 息 论 、 信 号 处 理 和 科学 计算 可 视 化 。 相 关 领 域 的 研究 工作 对 数据 挖掘 应 用 的 实施 也 
起 到 了 重要 的 支撑 作用 。 


2. 传统 的 数据 统计 分 析 方 法 与 数据 挖掘 


在 谈 到 数据 挖掘 方法 与 技术 的 时 候 ,很 多 研究 者 会 问 为 何不 采用 传统 数据 统计 的 分 析 
方法 来 获得 相关 的 知识 。 我 们 知道 ,数据 挖掘 技术 是 伴随 着 数据 库 技术 的 发 展 而 出 现 的 , 数 
据 库 中 的 数据 , 即 数据 挖掘 分 析 的 对 象 具 有 如 下 几 个 方面 的 特征 : 

(1) 海量 数据 。 

数据 挖掘 所 处 理 的 数据 规模 往往 要 求 能 够 扩展 到 处 理 以 TB 为 计数 单位 的 数据 ,数据 
规模 是 传统 数据 统计 分 析 方 法 所 面临 的 一 大 挑战 。 

(2) 高 维 数据 。 

存储 在 数据 库 中 的 数据 往往 是 具有 成 千 上 万 维度 规模 的 数据 ,传统 的 数据 分 析 方 法 处 
理 如 此 高 维度 的 信息 将 面临 很 大 的 困难 。 


(3) 高 复杂 性 的 数据 。 

当前 数据 库 中 所 存储 的 数据 往往 是 具有 高 复杂 度 的 数据 ,这 些 数 据 具 有 如 下 的 特 
点 : 规模 巨大 , 随 着 时 间 而 不 断 的 累积 增长 。 如 下 是 在 日 常 工作 中 几 类 典型 的 高 复杂 度 
数据 。 

O 数据 流 与 传 感 数 据 。 

© 时 间 序 列 数 据 、 随 时 间 而 变化 的 数据 序列 。 

© 结构 化 数据 .图 .社会 关系 网 络 .多 链接 关系 数据 。 

@ 异 构 数据 库 .法律 数据 。 

© 空间 数据 、 时 空 描述 数据 、 多 媒体 数据 、Web 数据 。 

© 软件 程序 、 科 学 仿真 数据 等 。 

(4) 新 的 复杂 数据 应 用 。 

近年 来 , 随 着 计算 机 技术 和 网 络 技术 的 发 展 ,新 的 数据 挖掘 的 应 用 需求 不 断 涌现 。 例 如 
对 于 人 口 调查 问卷 的 分 析 、 日 用 化 工 产品 性 能 的 分 析 等 。 随 着 应 用 的 发 展 ,新 的 应 用 需求 不 
断 涌现 ,这 些 刀 新 的 应 用 需求 往往 是 传统 数据 统计 分 析 方 法 所 不 能 处 理 的 。 

根据 当前 在 现实 工作 中 数据 挖掘 所 解决 的 问题 ,利用 数据 挖掘 技术 可 以 实现 如 下 几 个 
方面 的 功能 。 

1) 多 维 概念 的 描述 : 特征 抽取 与 识别 

在 现实 生活 中 描述 或 者 陈述 一 个 事物 或 者 人 物 时 ,常常 会 用 这 类 事物 或 者 人 物 的 某 个 
特征 来 对 其 进行 描述 ,以 区 别 于 其 他 被 描述 的 对 象 或 者 特征 。 例 如 描述 一 个 人 时 ,常常 用 这 
个 人 物 的 姓名 ,性 别 \ 年 龄 .身高 .体重 等 特征 来 描述 。 特 征 的 识别 与 抽取 就 是 通过 规范 化 、 
总 结 和 对 比 的 方式 抽取 被 分 析 对 象 的 特征 。 

2) 频繁 模式 ,相关 性 、 关 联 规则 与 随机 性 

与 随机 性 出 现 的 事物 和 现象 相 比 ,数据 挖掘 就 是 从 大 量 随 机 的 被 分 析 对 象 数 据 中 获取 
规律 性 的 频繁 发 生 的 关联 模式 与 规律 信息 。 经 典 的 数据 挖掘 分 析 案 例 一 一 啤酒 与 尿布 案例 
就 说 明了 这 一 点 。20 世纪 ,国际 上 一 些 大 型 的 超市 利用 数据 挖掘 技术 分 析 了 客户 购买 商品 
的 搭配 情况 ,发 现 了 一 个 很 有 意思 的 现象 ,就 是 购买 啤酒 的 男士 往往 也 会 同时 购买 小 孩 的 纸 
尿布 。 针 对 这 一 有 意思 的 现象 ,超市 随即 在 商品 摆 放 上 将 啤酒 与 小 孩 的 纸 尿 布 放 在 一 起 ,从 
而 明显 提升 了 两 种 商品 的 销售 数量 。 从 上 述 利用 数据 挖掘 方法 开展 商业 数据 的 分 析 过 程 中 
可 以 看 出 ,数据 挖掘 就 是 要 从 大 量 随机 发 生 的 事件 中 抽取 频繁 的 具有 相关 性 的 规律 使 之 服 
务 于 商业 决策 和 日 常生 活 。 

3) 分 类 与 预测 

数据 挖掘 相关 的 研究 工作 中 常常 还 力图 构建 一 个 模型 或 者 描述 函数 来 刻画 或 者 区 分 不 
同 的 类 型 与 概念 ,以 实现 对 于 未 来 潜在 的 预测 需求 。 例 如 在 实际 工作 中 ,往往 会 根据 气候 的 
类 型 来 对 相关 国家 进行 分 类 ,分 为 热带 国家 、 温 带 国 家 和 寒带 国家 。 实 际 生活 中 ,会 根据 小 
汽车 的 排 量 对 小 汽车 进行 分 类 ,分 为 小 排 量 汽车 、 大 排 量 汽车 等 类 型 。 

在 实际 应 用 数据 挖掘 技术 解决 相关 问题 的 过 程 中 ,常常 会 采用 分 类 技术 与 方法 解决 对 
未 知 的 结果 或 者 未 知 量化 特征 的 预测 。 
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4) 聚 类 分 析 

在 具体 的 分 类 类 型 信息 未 知 的 情况 下 ,往往 会 采用 聚 类 方法 对 数据 进行 分 类 。 聚 类 方 
法 的 主要 思想 是 将 被 分 类 的 数据 聚集 成 一 组 新 类 型 。 例 如 ,在 对 房屋 进行 聚 类 时 ,往往 是 根 
据 房屋 的 具体 位 置信 息 将 房屋 根据 分 布 情况 进行 聚 类 。 

通过 聚 类 分 析 手 段 ,可 以 实现 最 小 化 同类 对 象 之 间 的 差异 性 ;最 大 化 不 同类 型 对 象 之 间 
的 差异 性 。 聚 类 分 析 是 利用 数据 挖掘 技术 ,将 被 分 析 对 象 从 未 知 向 已 知 过 渡 的 一 种 有 效 
手段 。 

5) 离 群 点 (奇异 值 ) 分 析 

在 分 析 和 挖掘 数据 时 , 离 群 点 (奇异 值 ) 往 往 是 一 类 普遍 会 遇 到 的 现象 。 离 群 点 是 指 被 
分 析 的 数据 对 象 中 不 符合 常规 规律 的 数据 点 。 大 多 数 情况 下 , 离 群 点 往往 会 被 视 为 噪声 或 
者 异常 数据 ;而 在 某 些 情况 下 , 离 群 点 常常 可 以 用 于 故障 检测 或 者 小 概率 事件 的 分 析 工 作 。 
所 以 对 离 群 点 的 分 析 在 特殊 问题 处 理 方面 具有 重要 的 意义 。 

6) 趋势 与 演化 分 析 

趋势 与 演化 分 析 主 要 包括 如 下 几 个 方面 的 内 容 : 首先 ,对 于 数据 的 变化 趋势 与 偏 
离 分 析 也 是 数据 挖掘 领域 一 个 重要 的 研究 与 分 析 内 容 。 在 此 经 常会 采用 统计 学 上 的 
回归 分 析 方 法 来 解决 相关 的 问题 。 其 次 是 对 于 序列 模式 的 挖掘 与 分 析 , 例 如 在 分 析 有 
关 数 码 相 机 评论 相关 的 数据 时 ,常常 会 联想 到 与 数码 相机 相关 的 存储 信息 等 序列 模式 
信息 。 第 三 是 周期 性 的 分 析 ,主要 分 析 周 期 性 的 变化 规律 。 最 后 是 基于 相似 程度 的 分 
析 工 作 。 

7) 其 他 模式 与 统计 性 的 分 析 

根据 被 分 析 问 题 的 不 同 , 在 数据 挖掘 的 研究 中 常常 还 会 针对 问题 的 特点 ,需求 和 被 研究 
问题 的 情况 开展 其 他 方面 的 模式 ,规律 的 统计 性 分 析 工 作 。 


1.4 数据 挖掘 的 主要 研究 内 容 


1. 数据 挖掘 的 分 类 


根据 上 面 所 讨论 的 数据 挖掘 的 主要 功能 ,按照 具体 的 研发 工作 任务 ,可 以 将 数据 挖掘 所 
讨论 的 内 容 分 为 两 大 任务 类 型 : 描述 型 的 数据 挖掘 任务 和 预测 型 的 数据 挖掘 任务 。 描 述 型 
数据 挖掘 主要 是 根据 数据 仓库 中 的 数据 ,分 析 其 中 隐 含 的 规律 性 描述 ,例如 频繁 模式 挖掘 、 
关联 规则 的 挖掘 等 都 属于 描述 性 数据 挖掘 的 范畴 。 预 测 型 数据 挖掘 主要 是 根据 数据 仓库 中 
的 数据 ,开展 对 于 未 知 规律 和 知识 的 预测 研究 ,例如 分 类 、 聚 类 等 方面 的 研究 工作 就 属于 预 
测 型 的 研究 。 

国内 外 很 多 学 者 还 从 其 他 角度 对 数据 挖掘 所 研究 的 内 容 进 行 了 分 类 。 例 如 ,根据 被 挖 
掘 数据 的 内 容 进行 分 类 、 根 据 所 发 现 的 知识 内 容 进行 分 类 、 根 据 所 采用 的 数据 挖掘 技术 进行 
分 类 或 根据 应 用 的 类 型 进行 分 类 。 


2. 数据 挖掘 的 十 大 经 典 算法 


数据 挖掘 技术 发 展 至 今 ,提出 了 面向 不 同 应 用 问题 的 挖掘 与 分 析 算 法 。2006 年 12 A, 
在 中 国 香港 召开 的 数据 挖掘 领域 权威 国际 学 术 会 议 ICDM 上 评选 出 了 十 大 数据 挖掘 算法 。 
该 评选 工作 主要 分 为 三 个 步骤 : 首先 ,在 2006 年 9 月 ICDM 的 组 织 者 要 求 ACM KDD 创新 
奖 获得 者 和 IEEE ICDM 研究 贡献 奖 获得 者 分 别 推荐 10 个 数据 挖掘 领域 最 负 盛名 的 算法 ， 
本 阶段 共 推 荐 出 18 个 候选 算法 ;其 次 ,评选 活动 的 组 织 者 在 2006 年 10 月 份 使 用 谷歌 的 学 
术 搜 索 功 能 来 证 实 本 次 提名 的 权威 性 ;第 三 ,ICDM2006 的 组 织 者 组 织 了 KDD2006、 
ICDM2006 ,SDM2006 相关 获奖 者 对 18 个 候选 算法 进行 投票 , 选 出 了 10 个 最 负 盛 名 的 数据 
挖掘 算法 ,而 且 本 轮 投票 结果 与 ICDM2006 参 会 者 的 投票 结果 一 致 。 下 面 分 别 介绍 领域 专 
家 筛选 出 的 十 大 数据 挖掘 算法 。 

1) 第 一 名 : 决策 树 分 类 器 C4. 5( 分 类 算法 ) 

针对 数据 挖掘 领域 的 分 类 问题 ,决策 树 提供 了 一 种 基于 规则 的 经 典 分 类 方法 。 一 个 典 
型 的 决策 树 主要 包括 如 下 组 成 部 分 : 决策 节点 、 分 支 和 叶子 。 决 策 树 只 有 一 个 根 节点 , 根 节 
点 是 整个 决策 过 程 的 开始 。 决 策 树 的 内 部 节点 ( 非 叶 子 节点 ) 表 示 在 一 个 分 类 属性 上 的 决策 
测试 。 每 个 分 支 要 么 是 一 个 新 的 决策 节点 ,要 么 是 树 的 叶子 ( 即 决策 树 的 结束 )。 在 沿 着 决 
策 树 从 根 节点 到 叶子 节点 的 遍历 过 程 中 ,每 个 节点 的 决策 结果 会 导致 遍历 过 程 走向 不 同 的 
分 支 ,最 后 会 终止 于 某 一 个 叶子 节点 。 这 个 遍历 过 程 就 是 利用 决策 树 进 行 分 类 的 过 程 , 它 本 
质 上 是 依次 利用 被 分 类 对 象 的 几 个 属性 变量 来 判断 其 所 属 的 类 别 ( 即 所 对 应 的 叶子 ) 。 

2) 第 二 名 : K- 均 值 算 法 ( 聚 类 算法 ) 

K- 均 值 (K-Means) 算 法 是 一 类 经 典 的 聚 类 算法 。 它 本 质 上 是 一 种 利用 局 部 原型 目标 函 
数 进行 自动 聚集 并 达到 分 类 目的 的 方法 。 它 以 数据 点 到 原型 的 某 种 距离 作为 优化 目标 ( 优 
化 的 评价 指标 ) ,利用 函数 求 极 值 的 方法 得 到 和 迭代 运算 的 调整 规则 。K- 均 值 算法 以 欧式 距 
离 作为 相似 度 测度 ,计算 对 应 于 某 一 初始 聚 类 中 心 向 量 的 最 优 分 类 结果 ,使 得 评价 指标 
最 小 。 

3) 第 三 名 : 支持 向 量 机 (分 类 算法 ) 

作为 一 种 典型 的 统计 分 类 方法 ,支持 向 量 机 (SVM) 通 过 一 个 非 线性 映射 ,把 样本 空间 
映射 到 一 个 高 维 乃 至 无 穷 维 的 特征 空间 中 (Hilbert 空间 ) ,使 得 在 原来 的 样本 空间 中 非 线性 
可 分 的 问题 转化 为 在 特征 空间 中 的 线性 可 分 的 问题 。 升 维和 线性 化 是 其 主要 的 分 类 思想 。 
为 了 克服 由 于 升 维 所 带 来 的 “ 维 数 灾难 ”等 问题 ,SVM 方法 应 用 核 函 数 展开 定理 ,无 需 预 知 
非 线 性 映射 的 显 式 表达 。 由 于 是 在 高 维特 征 空间 中 建立 线性 学 习 模 型 ,所 以 几乎 不 增加 计 
算 的 复杂 性 ,而 且 在 某 种 程度 上 避免 了 “ 维 数 灾难 ?。 从 而 解决 了 对 于 在 低 维 样本 空间 无 法 
线性 分 类 的 问题 ,在 高 维特 征 空间 中 通过 一 个 线性 超 平面 实现 线性 划分 。 

4) 第 四 名 : Apriori 算法 (频繁 模式 分 析 算 法 ) 

作为 一 种 经 典 的 频繁 模式 分 析 算法 ,Apriori 算法 是 一 种 最 有 影响 力 的 挖掘 布尔 关联 规 
则 的 频繁 项 集 挖掘 算法 。 其 核心 是 基于 两 阶段 频繁 项 集 思 想 的 递 推 算法 。 

首先 ,由 分 析 程 序 通 过 数据 库 扫描 的 方式 分 析出 所 有 频繁 项 ,要 求 这 些 频繁 项 在 数据 库 
中 出 现 的 频繁 程度 不 低 于 事先 设 定 的 最 小 支持 度 条 件 。 其 次 ,在 此 基础 上 ,由 所 生成 的 频繁 
项 产生 强 关联 规则 ,所 产生 的 规则 必须 满足 最 小 支持 度 和 最 小 置信 度 的 约束 条 件 。 由 频繁 
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项 集 产生 期 望 的 规则 ,而且 产生 只 包含 集合 项 的 所 有 规则 。 

5) 第 五 名 : 最 大 期 望 估计 算法 ( 聚 类 算法 ) 

在 统计 计算 中 ,最 大 期 望 (Expectation-Maximization,EM) 算 法 是 在 概率 模型 中 寻找 参 
数 最 大 似 然 佑 计 或 者 最 大 后 验 估计 的 算法 ,其 中 的 概率 模型 依赖 于 无 法 观测 的 隐藏 变量 
(Latent Variable)。 最 大 期 望 算法 经 常用 于 解决 数据 挖掘 领域 的 数据 聚 类 (Data 
Clustering) 问 题 。 最 大 期 望 估计 算法 主要 分 为 两 个 交替 计算 的 步 又: 第 一 步 是 计算 期 望 
值 ,利用 对 隐藏 变量 的 现 有 估计 值 计算 其 最 大 似 然 估计 值 ;第 二 步 是 期 望 的 最 大 化 ,期 望 最 
大 化 是 在 第 一 步 计算 工作 的 基础 上 求 得 最 大 似 然 值 来 计算 参数 的 值 。 第 二 步 上 找到 的 参数 
估计 值 被 用 于 下 一 周期 第 一 步 的 计算 中 ,这 个 过 程 不 断交 替 进行 。 

6) 第 六 名 : PageRank 算法 (排序 算法 ) 

PageRank 算法 是 Google( 谷 歌 ) 排 名 运算 法 则 (排名 公式 ) 的 一 部 分 ,是 谷歌 用 于 搜索 
引擎 中 划分 被 检索 到 的 网 页 “等 级 /重要 性 ”的 一 种 方法 ,是 谷歌 用 来 衡量 一 个 网 站 质量 的 唯 
一 标准 。 在 故 合 了 诸如 多 种 网 页 特征 (如 网 页 标题 标签 ,网 页 关键 字 标 签 等 ) 之 后 ,谷歌 搜索 
引擎 通过 该 算法 来 调整 结果 ,使 那些 更 具 “ 等 级 /重要 性 ”的 网 页 在 搜索 结果 中 的 排名 获得 提 
升 ,从 而 提高 搜索 结果 的 相关 性 和 质量 。 

7) 第 七 名 : AdaBoost 算法 (集成 弱 分 类 器 ) 

AdaBoost 是 一 种 集成 多 个 弱 分 类 器 实现 分 类 功能 的 迭代 算法 与 集成 框架 ,其 核心 思想 
是 在 有 监督 的 机 器 学 习 分 类 器 中 ,基于 同一 个 训练 集训 练 不 同 的 分 类 器 ( 弱 分 类 器 ) ,然后 把 
这 些 弱 分 类 器 集成 在 一 起 ,构成 一 个 强 分 类 器 。AdaBoost 算法 评估 每 个 训练 样本 的 分 类 结 
果 是 否 正确 和 总 体 分 类 的 准确 率 来 确定 每 个 分 类 器 的 权 值 。 给 每 个 弱 分 类 器 赋予 新 的 权 
值 , 将 每 次 训练 得 到 的 分 类 器 最 后 结果 融合 在 一 起 ,获得 最 终 的 分 类 结果 。 

8) 第 八 名 : K 最 近邻 分 类 算法 (分 类 算法 ) 

K 最 近邻 (K-Nearest Neighbor,KNN) 分 类 算法 是 一 个 相对 成 熟 的 机 器 学 习 算 法 。 该 
算法 的 主要 实现 思路 是 : 如 果 一 个 样本 在 特征 空间 中 K 个 最 相似 (特征 空间 中 距离 上 最 邻 
近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 , 则 该 样本 也 属于 这 个 类 别 。KNN 算法 选择 的 邻居 
都 是 已 经 正确 分 类 的 对 象 。 该 方法 在 分 类 决策 上 只 依据 最 邻近 的 一 个 或 者 几 个 样本 的 类 别 
来 决定 待 分 样本 所 属 的 类 别 。 

D 第 九 名 : 朴素 贝 叶 斯 算法 (分 类 算法 ) 

贝 叶 斯 分 类 是 一 系列 分 类 算法 的 总 称 , 这 类 算法 均 以 贝 叶 斯 定理 为 基础 , 故 统称 为 贝 叶 
斯 分 类 。 朴 素 贝 叶 斯 算法 (Naive Bayesian) 是 其 中 应 用 最 为 广泛 的 分 类 算法 之 一 。 朴 素 贝 
叶 斯 分 类 器 基于 一 个 简单 的 假设 : 被 分 类 对 象 的 各 个 属性 之 间 相 互 条 件 独立 。 在 现实 世界 
中 ,被 分 类 对 象 属性 之 间 很 难 满足 条 件 独立 性 ,针对 这 样 的 实际 情况 ,又 出 现 了 许多 其 他 类 
型 的 贝 叶 斯 分 类 算法 一 一 贝 叶 斯 置信 网 络 等 分 类 算法 。 

10) 第 十 名 : 分 类 与 回归 树 算法 ( 聚 类 算法 ) 

分 类 与 回归 树 (Classification And Regression Tree,CART) 算 法 采用 一 种 基于 决策 树 
模型 的 分 类 方法 。 该 算法 将 当前 的 样本 集 根据 被 分 类 对 象 测试 属性 的 “基尼 ”(Gini) 系 数值 
分 为 两 个 子 样本 集 ,使 得 生成 的 决策 树 每 个 非 叶 子 节点 都 有 两 个 分 支 。CART 算法 使 用 后 
剪 枝 策略 简化 决策 树 的 规模 。CART 算法 运行 到 不 能 再 生成 新 的 分 支 为 止 , 从 而 得 到 一 棵 
较 大 的 决策 树 。 在 此 基础 上 ,对 这 棵 大 树 进行 剪 枝 。 


1.5 数据 挖掘 面临 的 主要 问题 


数据 挖掘 技术 发 展 至 今 , 主 要 在 如 下 三 个 方面 存在 着 一 些 问 题 : 挖掘 方法 ,用户 交互 和 
数据 挖掘 的 应 用 及 其 社会 影响 。 


1. 挖掘 方法 所 面临 的 问题 


Q) 在 实际 使 用 数据 挖掘 方法 发 现 知识 时 ,通常 会 希望 所 采用 的 挖掘 方法 能 够 实现 从 
不 同类 型 的 数据 中 挖掘 不 同 种 类 的 知识 。 例 如 ,这 些 数据 包括 生物 信息 数据 ` 流 数据 和 
Web 数据 等 。 然 而 ,在 现实 生活 中 所 采用 的 数据 挖掘 方法 往往 只 针对 特定 类 型 的 数据 和 有 
限 种 类 的 知识 开展 挖掘 工作 ,所 以 挖掘 方法 的 泛 化 能 力 的 研究 是 数据 挖掘 所 面临 的 一 个 重 
要 挑战 。 

(2) 数据 挖掘 的 对 象 往往 是 大 规模 海量 数据 ,挖掘 算法 的 性 能 也 是 数据 挖掘 过 程 中 常 
常 引起 关注 的 重要 问题 之 一 。 控 掘 算法 的 性 能 主要 包括 算法 效率 和 扩展 能 力 。 如 何 使 挖 握 
算法 的 性 能 得 到 提升 ,以 适应 实际 应 用 工作 是 数据 挖掘 算法 在 实用 性 方面 面临 的 重要 问题 
as 

(3) 描述 性 数据 挖掘 任务 中 需要 对 所 分 析 的 频繁 模式 或 者 规律 进行 相应 的 模式 评 
估 。 而 在 实际 应 用 问题 中 ,模式 评估 需要 依赖 于 不 同 专业 领域 用 户 对 于 模式 的 兴趣 度 ， 
如 何 根据 用 户 的 兴趣 度 对 所 挖掘 的 模式 进行 有 效 的 评估 也 是 挖掘 方法 研究 中 的 一 个 重 
要 问题 。 

(4) 数据 挖掘 工作 服务 的 对 象 往往 是 具有 不 同 专业 背景 的 用 户 。 在 挖掘 方法 中 如 何 融 
合 相关 的 背景 知识 使 挖掘 工作 更 有 针对 性 ,也 是 挖掘 方法 研究 的 一 个 重要 问题 。 

(5) 在 挖掘 方法 的 使 用 过 程 中 ,往往 被 挖掘 对 象 都 是 带 有 噪声 和 不 完全 的 数据 ,如 何 根 
据 不 同 应 用 领域 的 知识 ,使 挖掘 方法 依然 能 够 对 噪声 和 不 完全 的 数据 进行 挖掘 也 是 当前 研 
究 的 一 个 热点 。 

(6) 近年 来 , 随 着 并 行 计算 技术 的 成 熟 和 云 计算 技术 平台 的 构建 ,未 来 对 于 海量 数据 的 
挖掘 方法 往往 要 求 能够 具有 并 行 化 .分 布 式 和 增 量 性 的 特点 。 并 行 化 就 是 要 求 挖掘 算法 能 
够 并 行 运行 ;分 布 式 就 是 要 求 挖掘 算法 能 够 物理 地 分 布 在 不 同 计算 机 上 运行 ; 增 量 化 就 是 要 
求 挖掘 算法 能 够 在 已 有 挖掘 分 析 结 果 之 上 增 量 式 地 运行 。 

(7) 挖掘 算法 要 能 够 主动 集成 所 发 现 的 知识 , 即 实现 知识 的 融合 。 


2. 用 户 交 互 性 的 问题 


D 在 用 户 交互 性 问题 上 ,需要 提出 一 种 面向 数据 挖掘 的 查询 语言 以 实现 即时 数据 
挖掘 。 
(2) 需要 针对 用 户 的 数据 挖掘 结果 的 表示 和 可 视 化 呈现 技术 ,以 一 种 直观 方式 呈现 控 
据 的 结果 。 即 开展 面向 数据 挖掘 技术 的 计算 可 视 化 方法 研究 。 
(3) 用 户 往往 需要 在 多 个 抽象 层次 实现 交互 式 挖掘 , 即 要 求 整个 数据 挖掘 过 程 具有 可 
交互 性 。 
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3. 应 用 与 社会 影响 


(1) 在 应 用 方面 ,迫切 需要 开展 面向 领域 的 数据 挖掘 ,并 实现 常人 无 法 感知 和 不 可 见 的 
数据 挖掘 。 
(2) 在 数据 挖掘 的 应 用 过 程 中 还 需要 加 强 对 于 数据 安全 性 、 完 整 性 和 隐私 性 的 保护 。 


1.6 数据 挖掘 相关 的 资料 


本 书 仅仅 是 针对 高 等 院 校 理工 类 专业 的 本 科 生 和 硕士 研究 生 学 习 数 据 挖 掘 知识 的 基础 
性 教材 。 如 果 需 要 了 解 和 深入 学 习 有 关 数 据 挖掘 这 项 研究 工作 的 最 新 进展 ,可 参考 数据 挖 
掘 领域 的 相关 国际 学 术 组 织 的 会 议和 期 刊 。 

在 国际 学 术 活动 方面 ,人 工 智能 领域 的 顶级 国际 学 术 会 议 * 国 际 人 工 智 能 联合 会 议 
CJCAD ”在 1989 年 创立 了 数据 库 中 的 知识 发 现 研 讨 会 ,而 1991 年 至 1994 年 该 研讨 会 上 的 
相关 研究 成 果 也 已 于 1996 年 汇总 成 4 知识 发 现 与 数据 挖掘 的 进展 》 一 书 出 版 。1995 年 开 
始 ,数据 挖掘 领域 有 了 自己 专门 性 的 国际 学 术 会 议 一 一 数据 库 中 的 知识 发 现 与 数据 挖掘 国 
际会 议 (KDD)”。 伴 随 着 数据 挖掘 研究 工作 的 深入 ,1997 年 创办 了 学 术 期 刊 "数据 挖掘 与 知 
识 发 现 ”, 进 一 步 推动 了 数据 挖掘 领域 的 研究 工作 。1998 年 ACM 成 立 了 知识 发 现 与 数据 
挖掘 兴趣 组 (ACM SIGKDD) ,并 吸纳 国际 会 议 KDD 成 为 ACM 领域 的 数据 挖掘 年 会 ,也 就 
是 今天 的 顶级 学 术 会 议 ACM SIGKDD, 同 时 出 版 了 *SIGKDD 探索 ”这 一 学 术 刊物 。 在 同 
一 时 期 ,1997 年 亚太 地 区 知识 发 现 与 数据 挖掘 国际 会 议 创 办 (PAKDD)、1997 年 知识 发 现 
原理 与 实践 欧洲 会 议 (PKDD), 2001 年 SIAM 协会 的 数据 控 掘 学 术 会 议 (SIAM-Data 
Mining) 创 办 和 国际 电子 电气 工程 师 学 会 (IEEE) 的 数据 挖掘 国际 会 议 (ICDM) 也 同时 创办 。 
2007 年 ACM 开始 出 版 *ACM 知识 发 现 与 数据 挖掘 学 报 ”。 上 述 国际 交流 的 学 术 会 议 与 学 
术 刊 物 的 创办 极 大 地 推动 了 数据 挖掘 领域 的 各 项 研究 工作 。 

为 了 推动 数据 挖掘 研究 工作 ,国际 上 很 多 知名 的 研究 机 构 利 用 互联 网 共享 很 多 数据 挖 
掘 研究 工作 的 资源 ,主要 包括 数据 集 和 公共 开源 的 算法 包 。 代 表 性 的 共享 资源 主要 包括 ， 


1. 共享 数据 集 


(1) UCI 数据 集 http://kdd. ics. uci. edu/ 

(2) 卡耐基 梅 隆 大 学 (CMU) 数 据 集 

http://lib. stat. cmu. edu/ datasets/ 

http://www. cs. cmu. edu/afs/cs. cmu. edu/project/theo-20/www/data/ 

(3) 时 序数 据 集 http://www. stat. wisc. edu/ ~ reinsel/bjr-data/ 

(4) 金融 数据 集 http://lisp. vse. cz/pkdd99/Challenge/chall. htm 

(5) 癌症 基因 数据 集 

http://www. broadinstitute. org/cgi-bin/cancer/ datasets. cgi 

(6) 综合 数据 集 http://www. cs. nyu. edu/ ~roweis/data. html 

(7) 数据 集 列表 http://www. kdnuggets. com/ datasets/index. html 
Po he 


2. 共享 的 算法 软件 包 


(1) UCI 机 器 学 习 网 站 http://archive. ics. uci, edu/ml/ 

(2) Weka 官方 网 站 http://www. cs. waikato. ac. nz/ml/weka/ 

(3) DBMiner 官方 网 站 http://ddm. cs. sfu. ca/ 

(4) SVM 代码 http://www. csie. ntu. edu. tw/~cjlin/libsvm/ 
(5) LingPipe 官方 网 站 http://alias-i. com/lingpipe/ 


近年 来 ,一 些 像 Matlab、StatSoft 等 商用 软件 也 提供 了 一 些 经 典 的 数据 挖掘 算法 。 同 时 
包括 微软 公司 研发 的 数据 库 管理 系统 SQL Server 2008 中 也 提供 了 包含 数据 挖掘 功能 的 
Data Analysis 分 析 工 具 模 块 。 


1.7 本 书 的 总 体 章节 安排 


本 书 是 针对 高 等 院 校 理 工 类 专业 的 本 科 生 和 硕士 研究 生 学 习 数 据 挖掘 知 识 的 基础 性 教 
材 。 本 教材 的 总 体 章节 结构 安排 如 下 : 

第 2 章 “ 数 据 预 处 理 ”。 这 一 童 首先 介绍 数据 与 属性 的 基本 概念 ;其 次 ,讨论 数据 的 描述 
性 汇总 的 几 个 主要 衡量 指标 ;第 三 ,介绍 数据 清洗 、 数 据 集成 .数据 转换 数据 规约 ,以 及 数据 
离散 化 与 概念 分 层 方法 等 数据 预 处 理 的 基本 方法 与 技术 。 

第 3 童 “数据 仓库 ”。 这 一 章 首 先 回顾 数据 库 的 基本 概念 ,并 介绍 数据 仓库 的 概念 ;其 
次 ,介绍 一 种 多 维度 的 数据 模型 , 即 数据 立方 体 ; 最 后 ,在 此 基础 上 介绍 数据 仓库 的 基本 架 
构 数据 仓库 的 实现 技术 ,并 讨论 基于 数据 仓库 进行 数据 挖 握 的 基本 方法 。 

第 4 章 “ 相 关 性 与 关联 规则 ”"。 这 一 章 中 首先 介绍 频繁 模式 与 关联 规则 的 基本 概念 ，; 
其 次 ,讨论 几 种 高 效 的 和 可 扩展 的 频繁 模式 挖掘 算法 和 不 同类 型 的 关联 规则 挖掘 算法 ; 
第 三 ,探讨 从 关联 规则 挖掘 到 相关 性 分 析 的 迁移 策略 ;最 后 ,介绍 基于 约束 的 关联 规则 挖 
据 方 法 。 

第 5 章 * 分 类 和 预测 ”。 这 一 章 中 首先 介绍 分 类 与 预测 的 基本 概念 ;其 次 ,讨论 数据 挖掘 
领域 分 类 问题 中 主要 的 研究 问题 ;第 三 ,分 别 介绍 决策 树 ` 贝 叶 斯 分 类 器 、 神 经 元 网 络 .支持 
向 量 机 ,关联 分 类 方法 等 基本 的 有 监督 机 器 学 习 分 类 模型 ;最 后 ,讨论 有 关 分 类 器 的 评价 指 
标 , 并 介绍 集成 多 个 弱 分 类 器 构建 强 分 类 器 的 策略 。 

第 6 章 * 聚 类 分 析 ”。 这 一 章 主 要 介绍 无 监督 机 器 学 习 分 类 模型 。 首 先 , 介 绍 聚 类 的 基 
本 概念 ;其 次 ,介绍 聚 类 分 析 中 可 能 涉及 的 几 种 属性 数据 类 型 及 其 相似 度 的 计算 方法 ;第 三 ， 
分 别 介绍 如 下 几 类 典型 的 聚 类 方法 : 基于 划分 的 聚 类 方法 .层次 化 聚 类 方法 .基于 密度 的 聚 
类 方法 、 网 格 化 的 聚 类 方法 和 基于 模型 的 聚 类 方法 ;最 后 ,讨论 数据 挖掘 领域 的 另 一 个 重要 
问题 一 一 离 群 点 (奇异 值 ,Outlier) 的 分 析 问题 。 

第 7 章 “ 数 据 挖掘 应 用 ”。 这 一 章 列举 了 一 个 基于 消费 者 调查 问卷 和 消费 者 皮肤 指标 数 
据 ,构建 一 个 真实 的 消费 者 皮肤 状况 预测 系统 的 应 用 实例 ,以 此 详细 阐述 如 何 应 用 数据 挖掘 
与 分 析 技 术 来 解决 一 个 应 用 问题 。 
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1.8 小 结 


作为 数据 库 技术 发 展 的 必然 结果 ,数据 挖掘 技术 已 经 得 到 了 广泛 的 研究 与 应 用 。 数 据 
挖掘 就 是 从 海量 数据 中 发 现 有 价值 的 知识 。 一 个 典型 的 知识 发 现 过 程 包括 数据 清洗 、 数 据 
集成 .数据 选择 、 数 据 转换 、 数 据 挖掘 、 模 式 评估 和 知识 表示 。 数 据 挖掘 工作 可 以 在 不 同 的 数 
据 仓 库 上 展开 。 数 据 挖掘 可 以 完成 : 数据 的 特征 抽取 ,特征 识别 .关联 分 析 、 分 类 、 聚 类 、 离 
群 点 分 析 和 趋势 分 析 等 。 随 着 应 用 的 发 展 ,当前 数据 挖掘 领域 有 诸多 问题 迫切 需要 解决 。 
本 书 的 后 续 章 节 将 针对 知识 发 现 过 程 的 各 个 关键 步骤 环节 进行 介绍 。 
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第 2 章 数据 预 处 理 


Olly 


2.1 前 


数据 是 对 客观 世界 及 对 象 的 一 种 符号 化 或 数量 化 的 描述 与 表示 。 从 客观 物理 世界 中 获 
得 数据 的 目的 是 为 了 从 其 中 获得 能 够 进行 挖掘 与 分 析 工作 所 需要 的 知识 。 通 过 对 数据 的 采 
集 和 处 理 ,可 以 达到 获取 信息 与 挖掘 知识 的 目的 。 例 如 ,气象 局 采集 气象 数据 以 预测 天 气 ， 
海洋 生物 学 家 采集 海水 样品 以 监测 海洋 生态 的 变化 等 。 

随 着 科学 技术 的 发 展 ,目前 可 以 采用 的 数据 测量 手段 越 来 越 多 ,同时 可 以 获得 的 数据 也 
越 来 越 多 。 对 于 通过 一 定 的 测量 和 测试 手段 获取 的 数据 ,在 进行 挖掘 与 分 析 工 作 之 前 ,数据 
本 身 会 存在 一 定 的 问题 。 这 些 问题 中 有 些 是 因数 据 自身 的 不 良 特性 而 产生 ,有 些 则 因 受 限 
于 获取 数据 的 客观 条 件 而 产生 。 因 此 通常 在 对 数据 进行 挖掘 和 分 析 工 作 之 前 ,首先 需要 对 
数据 进行 一 定 的 处 理工 作 , 以 保证 后 续 挖掘 和 分 析 的 数据 质量 , 即 数 据 预 处 理 。 一 个 典型 的 
数据 预 处 理 过 程 包 括 数据 清洗 、 数 据 集 成 .数据 转换 和 数据 规约 等 步 又。 通常 情况 下 ,为 了 
检测 和 分 析 数 据 中 所 面临 的 问题 ,常常 会 借助 于 数据 的 描述 性 汇总 方法 来 观测 数据 的 趋 中 
趋势 和 散布 性 ,以 便 分 析 和 发 现 原 始 数据 中 可 能 存在 的 问题 。 

本 章 的 内 容 安排 如 下 : 2. 2 节 介 绍 数据 预 处 理 相关 的 基本 概念 ;2. 3 节 介 绍 用 于 检测 和 
分 析 数 据 质量 问题 的 数据 汇总 性 描述 方法 ;2. 4 节 介 绍 用 于 消除 数据 噪声 的 几 类 典型 的 数 
据 清 洗 方 法 ;2.5 节 介绍 数据 集成 相关 的 概念 与 方法 ;2. 6 节 介 绍 数据 归 约 和 转换 相关 的 方 
法 ;2.7 节 介 绍 在 数据 离散 化 中 所 用 到 的 主要 方法 与 技术 。 


2.2 数据 预 处 理 的 基本 概念 


本 节 将 介绍 与 数据 预 处 理 相关 的 基本 概念 ,包括 数据 的 基本 概念 .数据 的 属性 ,以 及 实 
际 数据 预 处 理工 作 中 所 面 对 的 问题 ,并 介绍 数据 预 处 理工 作 的 主要 内 容 。 


2.2.1 数据 的 基本 概念 


数据 是 数据 对 象 (Data Objects) 及 其 属性 (Attributes) 的 集合 。 一 个 数据 对 象 是 对 一 
个 事物 或 者 物理 对 象 的 描述 。 一 个 典型 的 数据 对 象 可 以 是 一 条 记录 、 一 个 实体 .一 个 案例 、 
一 个 样本 等 。 而 数据 对 象 的 属性 则 是 这 个 对 象 的 性 质 或 特征 ,例如 一 个 人 的 肤色 、 眼 球 颜色 
是 这 个 人 的 属性 ,而 某 地 某 天 的 气温 则 是 该 地 该 天 气象 记录 的 属性 特征 。 

K 2.1 给 出 了 一 个 关于 银行 信用 卡 数据 的 例子 。 银 行为 控制 信用 卡 欺 诈 风 险 , 对 信用 
卡 用 户 提交 的 资料 都 会 有 记录 , 表 中 所 示 为 其 中 一 部 分 记录 的 示例 。 其 中 ,每 一 行为 一 条 记 
录 , 每 条 记录 即 一 个 数据 对 象 ,代表 一 个 用 户 的 资料 。 而 每 一 行 的 序号 、 婚 姻 状 态 、 计 税收 
入 是否 欺 诈 均 为 数据 对 象 的 属性 。 而 每 一 条 记录 的 某 一 列 即 该 对 象 属性 的 属性 值 ,如 序号 
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为 1 的 对 象 “ 婚 姻 状 态 ” 属 性 的 值 为 “单身 ”。 
表 2.1 数据 的 一 个 例子 :信用 卡 用 户 的 资料 


序号 婚姻 状态 计 税 收入 是 否 欺诈 
1 单身 130 000 否 
2 已 婚 105 000 否 
单身 60 000 是 


属性 值 是 对 一 个 属性 所 赋予 的 数值 或 符号 ,是 属性 的 具体 化 。 一 个 属性 可 以 映射 为 不 
同 数值 类 型 的 属性 值 ,如 某 人 的 身高 可 以 是 1.73m. 也 可 以 是 173cm,; 或 1730mm。 不 同 的 
属性 可 以 映射 到 相同 的 属性 值 空间 中 ,如 年 龄 和 序号 都 可 以 映射 为 自然 数 。 受 属性 的 性 质 
影响 ,不 同属 性 值 性 质 也 可 能 不 同 , 如 序号 可 以 不 断 增 长 ,但 人 的 年 龄 却 有 最 大 值 的 限制 。 

属性 具有 不 同 的 类 别 , 可 以 按照 属性 值 的 类 型 将 属性 类 别 分 为 4 种: 

(1) 名 称 型 属性 (Nominal) 。 如 身份 证 号 码 、 眼 球 颜 色 和 邮政 编码 等 。 

(2) 顺序 型 属性 (Ordinal) 。 如 比赛 排名 .学 分 成 绩 和 身高 等 。 

(3) 间隔 型 属性 (Interval) 。 如 日 期 间隔 .摄氏 和 华氏 温度 等 。 

(4) 比率 型 属性 (Ratio) 。 如 百分比 和 人 口 比例 等 。 

一 个 属性 属于 以 上 4 种 属性 的 哪 一 种 ,取决 于 属性 的 属性 值 是 否 满足 下 列 4 种 性 质 ， 
区 别 性 有 序 性 、 可 加 性 和 乘除 性 。 名 称 型 属性 的 属性 值 只 满足 区 别 性 性 质 , 即 两 个 名 称 型 
属性 的 属性 值 可 以 判断 相等 或 不 等 ,但 没有 判断 大 小 、 加 减 乘除 的 意义 。 顺 序 型 属性 的 属性 
值 除 了 满足 区 别 性 属性 之 外 ,也 满足 有 序 性 。 间 隔 型 属性 的 属性 值 满足 区 别 性 有 序 性 和 可 
加 性 3 种 性 质 。 比 率 型 属性 的 属性 值 满足 以 上 全 部 4 种 性 质 。 

属性 除了 以 上 分 类 之 外 ,还 有 离散 属性 和 连续 属性 之 分 。 离 散 属性 只 能 从 有 限 或 可 数 
的 属性 值 集合 中 取 值 ,通常 可 以 用 整数 变量 表示 ,如 邮政 编码 文档 中 的 词 数 和 身份 证 号 码 
等 。 二 进 制 属性 是 离散 属性 的 一 个 特例 。 连 续 属 性 与 离散 属性 相对 ,可 以 从 不 可 数 无 穷 多 
个 属性 值 中 取 值 ,通常 取 值 范围 为 实数 。 实 际 中 ,通常 只 用 有 限 多 位 来 表示 一 个 数 , 因 此 连 
续 属 性 在 计算 机 中 通常 表示 为 浮 点 数 。 

以 上 介绍 了 数据 对 象 属性 和 属性 值 的 概念 。 与 属性 和 属性 值 相同 ,数据 也 是 多 种 多 样 
的 ,根据 数据 的 来 源 、 用 途 和 组 织 方式 等 可 以 将 数据 分 成 许多 类 型 。 这 里 根据 数据 的 组 织 方 
式 和 相对 关系 将 数据 呈现 为 以 下 形式 : 

(1) 记录 数据 。 这 种 数据 由 一 条 条 的 记录 组 成 ,如 记录 数据 、 数 据 和 矩阵 文档 数据 和 事 
务 数据 等 。 

(2) 图 数据 。 这 种 数据 由 记录 (点 ) 和 记录 之 间 的 联系 ( 边 ) 组 成 ,如 万 维 网 数据 、 化 学 分 
子 结构 数据 等 。 

(3) 有 序数 据 。 这 种 数据 的 记录 之 间 存 在 时 间 和 空间 上 的 序 关 系 , 如 序列 数据 .时 间 序 
列 数据 和 空间 数据 等 。 

记录 数据 是 数据 集 由 一 条 一 条 记录 组 成 数据 ,每 条 记录 具有 相同 的 属性 集合 。 记 录 数 
据 是 SQL 数据 库 所 使 用 的 数据 类 型 。 表 2.1 所 示 的 数据 就 是 记录 数据 的 一 个 例子 , 表 中 每 
一 行 代表 一 条 记录 ,每 条 记录 都 有 4 个 属性 : 序号 .婚姻 状态 . 计 税收 入 和 是 否 欺诈 。 
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数据 矩阵 是 记录 数据 的 一 种 特例 。 当 每 个 属性 都 是 数值 型 属性 的 时 候 , 这 些 数据 对 象 
就 可 以 被 看 成 空间 中 的 点 ,每 一 个 维度 对 应 一 个 属性 。 这 样 的 数据 集 可 以 用 mX a 的 矩阵 
来 表示 ,其 中 和 抢 阵 的 行 数 m 为 记录 的 条 数 ,矩阵 的 列 数 ”为 记录 的 属性 个 数 。 

文档 数据 是 文档 集合 构成 的 数据 集 。 在 自然 语言 处 理 中 ,在 “ 词 袋 模型 "的 假设 下 将 一 
个 文档 中 词 出 现 的 次 数 作为 文档 的 属性 是 常见 的 做 法 。 表 2. 2 展示 了 一 个 文档 集合 的 数据 
和 矩阵 表示 ,其 中 每 一 行为 一 个 文档 ,每 一 列 代表 文档 中 出 现 某 个 词 的 次 数 。 


表 2.2 文档 数据 表示 为 数据 矩阵 : 文档 中 词 出 现 次 数 


team | coach | play | ball score | game | win | lost timeout season 
Document 1 $ 0 5 0 2 6 0 2 0 2 
Document 2 0 (d 0 2 1 0 0 3 0 0 
Document 3 0 1 0 0 1 2 2 0 3 0 


交易 数据 是 记录 数据 的 一 种 特例 ,在 交易 数据 中 ,每 一 条 记录 (交易 ) 中 包含 若干 个 物 
品 。 例 如 在 超市 的 销售 记录 中 ,一 笔 销 售 记录 包括 一 个 记录 号 和 一 个 物品 清单 。 表 2. 3 展 
示 了 一 个 超市 销售 记录 的 例子 ,其 中 每 一 条 记录 是 一 笔 销售 。 


表 2.3 交易 数据 的 例子 : 超市 销售 记录 


ID Items 
Bread，Coke，Milk 

2 Beer，Bread 

3 Beer. Coke, Diaper. Milk 
4 Beer, Bread. Diaper, Milk 
5 Coke, Diaper. Milk 


图 数据 由 点 与 点 之 间 的 连 线 构成 ,通常 用 来 表示 具有 某 种 关系 的 数据 ,如 家 谱 图 .分 类 
体系 图 和 互联 网 链接 关系 等 。 在 万 维 网 中 ,网 页 通常 表示 为 HTML( 超 文本 标记 语言 ) 格 
式 , 其 中 包含 可 以 指向 其 他 网 页 或 站 点 的 链接 ,如 果 把 这 些 网 页 视 为 点 ,将 链接 视 为 有 向 边 ， 
则 万 维 网 数据 可 以 看 作 一 个 有 向 图 ,如 图 2. 1 所 示 。 化 学 分 子 结构 可 以 视 为 无 向 图 模型 ,其 
中 每 个 点 为 原子 ,而 其 中 的 线 为 化 学 键 , 如 图 2.2 所 示 。 


<a href="papers/papers.html#bbbb"> 

Data Mining </a> 

<li> 

<a href="papers/papers.html#aaaa"> 

Graph Partitioning </a> 

<li> 

<a href="papers/papers.html#aaaa"> 

Parallel Solution of Sparse Linear System of Equations </a> 
<li> 

<a href="papers/papers.html#ffff'> 

N-Body Computation and Dense Linear System Solvers 


图 2.1 图 数据 的 例子 : 万 维 网 数据 
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有 序数 据 是 一 种 数据 记录 之 间 存 在 序 关系 的 数 
据 集 , 这 种 序 关系 体现 在 前 后 .时 间或 者 空间 上 。 交 
易 序 列 数据 是 一 种 特殊 的 有 序数 据 , 其 中 每 一 个 数 
据 都 是 一 个 交易 序列 。 表 2.4 所 示 的 超市 销售 记录 
序列 数据 中 ,每 一 行为 一 位 顾客 的 购买 记录 序列 , 括 
号 内 是 一 次 购买 的 物品 清单 ,不 同 括号 的 先后 顺序 
表示 时 间 上 的 先后 顺序 。 交 易 序 列 数 据 有 助 于 挖掘 
在 时 间 上 具有 先后 的 一 些 交易 的 性 质 ,如 重复 购买 
(购买 啤酒 后 常常 会 购买 小 孩 的 纸 尿 布 ), 或 关联 商 。” 图 2.2 图 数据 的 例子 : 芋 环 分 子 结构 
品 ( 购 买单 反照 相机 后 都 会 购买 镜头 ) 。 


表 2.4 交易 序列 的 例子 : 超市 销售 记录 


Customer ID Sequence of Transaction 
1 (Bread, Coke) (Milk, Coke) (Bread) 
2 (Beer, Bread) (Beer, Diaper) 
3 (Beer, Coke, Diaper) (Milk) (Beer) 
4 (Beer, Bread, Diaper) (Milk) 
5 (Coke, Diaper, Milk) (Beer, Diaper) 


有 序数 据 还 应 用 在 许多 其 他 领域 ,如 生物 学 中 的 基因 序列 .气象 学 中 的 气象 指数 的 时 空 
数据 等 都 属于 有 序数 据 的 范畴 。 

图 数据 和 有 序数 据 在 孤立 数据 的 基础 上 增加 了 数据 之 间 的 关联 性 ,因此 具有 比 孤 立 数 
据 更 加 丰富 的 信息 。 由 于 图 数据 和 有 序数 据 的 组 织 形式 的 特殊 性 ,通常 称 对 图 数据 进行 的 
数据 挖掘 为 图 挖掘 (Graph Mining) , 称 对 序列 数据 进行 的 数据 挖掘 为 序列 挖掘 (Sequence 
Mining). 


2.2.2 为 什么 要 进行 数据 预 处 理 


为 什么 要 进行 数据 预 处 理 ? 最 主要 的 原因 是 数据 质量 无 法 满足 数据 挖掘 的 要 求 , 如 数 
据 可 能 具有 某 些 不 良 特性 ,或 者 不 符合 后 续 挖掘 的 需要 。 高 质量 的 数据 挖 扎 结果 离 不 开 高 
质量 的 数据 来 源 ,为 了 让 后 续 的 数据 挖掘 可 以 更 好 地 进行 ,可 以 对 数据 进行 一 些 处 理 和 变 
换 , 使 得 预 处 理 后 的 数据 能 够 满足 数据 挖掘 的 需要 。 

一 般 来 说 ,高 质量 的 数据 应 该 满足 准确 性 、 完 整 性 和 一 致 性 的 原则 。 即 数据 应 该 准确 反 
映 所 描述 的 事实 ,数据 的 属性 应 该 是 完整 的 ,数据 的 每 个 属性 应 当 以 一 致 的 原则 来 表示 。 遗 
憾 的 是 ,在 现实 世界 中 的 数据 往往 不 能 够 满足 这 些 要求 。 现 实 世 界 中 的 数据 有 可 能 是 不 准 
确 的 ,如 温度 .语音 和 图 像 等 数据 经 常 含有 噪声 ,人 工 采集 和 录入 的 数据 可 能 含有 错误 等 。 
现实 世界 中 的 数据 有 可 能 是 不 完整 的 ,数据 的 某 些 属性 值 可 能 是 缺失 的 ,数据 可 能 没有 所 关 
心 的 某 个 属性 。 现 实 世界 中 的 数据 可 能 是 不 一 致 的 ,同一 条 数据 的 不 同属 性 之 间 可 能 有 着 
冲突 的 关系 ,如 某 个 客户 资料 中 显示 他 在 1998 年 出 生 却 在 1997 年 获得 博士 学 位 ;不 同 数据 
记录 的 同一 属性 可 能 具有 不 同 的 格式 ,如 一 部 分 学 生 的 成 绩 可 能 是 百分制 分 数 ,而 男 一 部 分 
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学 生 的 成 绩 却 是 以 "优秀 .良好 、` 通 过、 不 通过 ?来 表示 。 

数据 质量 的 低劣 甚至 有 着 来 自 现实 的 原因 。 由 于 采集 数据 时 的 想法 与 分 析 数 据 时 的 想 
法 不 一 定 相同 ,数据 的 某 些 属性 可 能 会 缺失 ;采集 数据 的 软 硬 件 可 能 出 现 漏洞 ,致使 某 些 属 
性 值 丢 失 ; 人 工 采集 数据 时 可 能 出 现 人 为 错误 ,被 调查 用 户 可 能 不 愿意 透露 某 些 数据 ,这 些 
原因 都 有 可 能 导致 数据 的 不 完整 性 。 同 样 ,在 数据 的 传输 过 程 中 可 能 没有 采用 无 损 的 传输 
方式 ,在 数据 的 采集 中 有 可 能 没有 很 好 地 保存 原始 信息 ,这 些 都 可 能 导致 数据 中 含有 噪声 。 
当 数据 是 从 不 同 的 源头 进行 采集 时 ,不 同时 刻 采 集 过 程 受到 环境 的 影响 ,都 可 能 产生 数据 不 
一 致 的 现象 。 

除了 以 上 所 提 及 的 数据 一 致 性 、 完 整 性 、 准 确 性 之 外 ,通常 还 会 关心 其 他 一 些 数据 质量 
问题 ,如 时 效 性 、. 可 信 性 `\ 有 价值 .可 解释 性 和 可 访问 性 等 ,这 里 就 不 一 一 袭 述 了 。 


2.2.3 数据 预 处 理 的 任务 


数据 预 处 理 的 主要 任务 包括 数据 清洗 .数据 集成 数据 转换 .数据 归 约 和 数据 离散 化 等 。 

(1) 数据 清洗 。 顾 名 思 义 ,是 对 脏 数 据 进行 处 理 并 去 除 这 些 不 良 特 性 的 过 程 。 脏 数据 
是 指 包含 噪声 ,存在 缺失 值 ,存在 错误 和 不 一 致 性 的 数据 。 通常 来 说 ,数据 清洗 的 过 程 会 填 
补缺 失 值 .对 有 噪声 的 数据 进行 平滑 处 理 、 识 别 并 移 除 数据 中 的 离 群 点 并 解决 数据 的 不 一 致 
性 问题 。 

(2) 数据 集成 。 是 将 不 同 来 源 的 数据 集成 到 一 起 的 过 程 , 这 些 数据 可 能 来 自 不 同 的 数 
据 库 ` 数 据 报表 和 数据 文件 。 数 据 集成 需要 解决 数据 在 不 同 数据 源 中 的 格式 和 表示 的 不 同 ， 
并 整理 为 形式 统一 的 数据 。 

(3) 数据 转换 。 是 对 数据 的 值 进行 转换 的 过 程 。 在 使 用 某 些 数据 处 理 方法 之 前 ,如 
均值 聚 类 和 贝 叶 斯 分 类 ,对 数值 进行 转换 非常 必要 。 因 为 当 数据 的 不 同 维度 之 间 的 数量 级 
差别 很 大 的 时 候 , 分 类 和 聚 类 的 结果 会 变 得 非常 不 稳定 ,这 时 通常 会 对 数据 进行 规范 化 ,对 
数据 值 进行 统一 的 放 缩 。 

(4) 数据 归 约 。 是 对 数据 的 表示 进行 简化 的 技术 。 数 据 归 约 使 得 表示 非常 复杂 的 数据 
可 以 以 更 加 简化 的 方式 来 表示 。 数 据 归 约 可 以 使 得 数据 处 理 在 计算 效率 、 存 储 效率 上 获得 
较 大 的 提升 ,而 不 至 于 在 挖掘 分 析 性 能 上 做 出 大 的 牺牲 。 

(5) 数据 离散 化 。 是 对 连续 数据 值 进行 离散 化 的 过 程 。 数 据 的 传输 ,存储 和 处 理 过 程 
都 只 能 对 有 限 位 的 数据 值 进行 ,所 以 数据 离散 化 是 计算 机 处 理 数据 所 必 经 的 一 个 步骤 。 数 
据 离 散 化 有 时 也 称 为 量化 ,数据 在 离散 化 过 程 中 可 能 会 损失 部 分 信息 ,信息 论 中 的 率 失真 理 
论 给 出 了 量化 过 程 中 的 信息 损失 与 量化 的 位 数 的 关系 。 

数据 预 处 理 相关 的 这 些 任 务 都 服务 于 一 个 目的 ,即将 不 完整 .不 一 致 不 准确 的 数据 造 
成 的 不 利 影响 尽 可 能 地 消除 ,使 得 后 续 的 数据 挖掘 工作 能 够 得 到 高 质量 的 结果 。 


2.3 数据 的 描述 


当 获 得 大 量 数据 时 , 比 起 直接 查看 这 些 数 据 , 通 常 更 加 关心 这 些 数据 在 整体 上 具有 什么 
样 的 特性 。 为 了 得 到 对 于 数据 的 整体 认识 ,需要 将 数据 以 一 定 的 方式 描述 出 来 。 
本 节 将 介绍 描述 数据 的 方法 ,包括 描述 数据 中 心 趋势 的 方法 如 均值 .中 位 数 ,描述 数据 
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的 分 散 程度 的 方法 如 方差 标准 差 ,以 及 数据 的 其 他 描述 方法 如 散 点 图 和 参数 化 方法 等 。 
2.3.1 描述 数据 的 中 心 趋势 

假设 你 是 一 门 课程 的 教师 , 拿 到 了 这 门 课程 中 学 生 的 百分制 成 绩 列表 ,你 如 何 评 价 学 生 
在 这 门 课 上 的 成 绩 水 平 ? 通常 会 想到 首先 看 一 看 整体 水 平 是 什么 样 的 ,如 何 用 一 个 数 来 评 


价 学 生 的 整体 水 平 呢 ? 一 般 会 想到 的 是 平均 值 (Mean) ,又 称 为 均值 或 算数 均值 (Arithmetic 
mean) ,其 计算 方式 如 下 : 


T ASt 

例如 ,对 于 下 列 学 生成 绩 列表 ,其 算数 均值 为 81. 6 分 , 即 平均 分 是 81. 6 分 。 可 以 看 出 ， 
学 生 的 成 绩 分 布 大 体 在 平均 值 附近 。 

67 98 76 78 70 82 91 85 84 85 

如 果 其 中 一 个 同学 没有 好 好 复习 ,在 考 前 打 了 一 晚上 游戏 ,结果 考 了 12 分 ,使 得 成 绩 列 
表 变 成 了 这 样 : 

12 98 76 78 70 82 91 85 84 85 

如 果 按 昭平 均值 计算 ,就 会 得 出 平均 值 为 76. 1 分 ,但 是 仔细 看 一 看 这 个 成 绩 列表 就 会 
发 现 , 比 平均 值 低 的 只 有 3 个 同学 ,而 有 7 个 同学 比 平均 值 高 ,这 个 平均 值 并 不 能 很 好 地 反 
映 整 体 水 平 ,是 因为 这 个 考 了 12 分 的 同学 造成 了 这 种 现象 。 为 了 处 理 这 种 情况 ,可 以 使 用 
截断 均值 CTrimmed mean) , 即 不 考虑 离 群 值 ,用 其 他 值 计 算 平均 值 。 使 用 截断 均值 来 进行 
计算 : 去 除 第 一 个 同学 的 分 数 ,余下 9 个 同学 的 分 数 平均 值 为 83.2, 这 比较 符合 直观 印象 。 

在 诸如 歌唱 比赛 . 评 标 等 打分 环节 中 ,为 了 避免 评委 个 人 的 偏好 与 偏向 对 整体 评分 造成 
影响 ,通常 使 用 去 掉 一 个 最 低 分 ,去 掉 一 个 最 高 分 ,用 其 他 分 数 计算 平均 分 的 手段 来 进行 打 
分 ,这 就 是 一 种 形式 的 截断 均值 。 

有 时 在 计算 平均 值 时 并 不 希望 将 所 有 的 数据 等 同 看 待 , 而 是 希望 让 一 些 数据 比 另 一 些 
数据 更 有 代表 性 。 例 如 在 歌唱 比赛 中 ,有 5 名 评委 和 10 名 观众 (真正 的 选秀 节目 的 观众 数 
一 般 很 多 ) ,他 们 都 可 以 对 歌手 进行 打分 ,但 是 评委 一 般 由 专业 歌唱 家 与 著名 艺人 组 成 ,其 艺 
术 鉴 赏 能 力 和 权威 性 要 明显 高 于 一 般 观众 ,如 果 计 算 算 术 平 均值 显然 是 不 适当 的 。 这 时 可 
以 使 用 加 权 算 术 均 值 (Weighted arithmetic mean) ,其 计算 方式 如 下 : 


现在 假设 一 名 歌手 演唱 了 一 首 欣 赏 难 度 较 大 的 歌曲 ,评委 对 其 的 评价 较 好 ,但 是 曲 高 和 
朝 ,观众 并 不 买账 ,打分 状况 可 能 就 会 出 现下 面 的 情况 : 
评委 : 90 85 80 75 95 
观众 : 80 95 60 40 65 85 70 50 20 40 
如 果 对 这 样 的 打分 计算 简单 的 算术 平均 值 , 就 会 得 到 68. 7 的 平均 分 ,这 个 分 数 并 没有 
显示 出 该 歌手 的 实际 水 平 ,这 个 打分 方式 显然 并 不 合理 。 为 了 突出 评委 评分 的 权威 性 ,同时 
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不 打击 观众 参与 的 积极 性 ,主办 方 决定 使 用 加 权 算 术 均 值 来 对 歌手 进行 打分 ,评委 评分 的 权 
E ww 是 观众 评分 的 权重 的 10 倍 。 这 样 计算 出 来 的 均值 就 是 : 


这 个 分 数 既 反映 了 评委 在 专业 层面 上 对 歌手 的 评分 ,又 在 一 定 程度 上 反映 了 歌手 缺乏 
观众 人 气 的 现象 ,是 更 加 合理 的 打分 方式 。 

有 些 情况 下 ,均值 并 不 能 给 出 正确 的 对 数据 的 整体 印象 。 如 下 面 的 这 个 例子 : 

例 2-1 某 公司 的 员工 收入 情况 如 下 : 

。 1 名 CEO 兼 总 裁 ,年 薪 500 万 ; 

。 5 名 副 总 裁 ,人 均 年 薪 100 万 ; 

。 10 名 总 监 ,人 均 年 薪 50 万 ; 

。 40 名 中 层 管 理 人 员 , 人 均 年 薪 25 H; 

。 100 名 普通 员工 ,人 均 年 薪 15 万 。 

该 公司 的 全 员 平 均 年 薪 是 25.6 万 ,这 样 的 统计 数据 给 人 们 一 种 误导 ,大 多 数 员 工 也 会 
认为 这 个 统计 数据 明显 与 身边 的 情况 不 同 , 他 们 看 到 的 情况 是 几乎 身边 的 所 有 人 都 会 觉得 
自己 的 薪资 比 平均 薪资 低 。 这 样 一 个 薪资 能 够 反映 一 个 公司 的 一 般 情 况 吗 ? 

答案 显然 是 不 能 ,平均 薪资 不 足以 反映 这 个 公司 的 一 般 薪 资 状况 。 因 此 ,可 以 使 用 中 位 
数 (Median) 和 众 数 (Mode) 两 种 描述 方式 。 

中 位 数 是 将 数据 排序 后 处 于 中 间 的 数 , 如 果 数 据 值 是 奇数 个 , 则 中 位 数 就 等 于 中 间 的 
数 ; 如 果 数 据 值 是 偶数 个 , 则 中 位 数 等 于 中 间 的 两 个 数 的 平均 值 。 使 用 中 位 数 来 描述 以 上 例 
子 中 的 薪资 ,可 以 得 出 该 公司 的 薪资 中 位 数 为 15 万 的 结论 。 

众 数 是 在 数据 中 出 现 次 数 最 多 的 数 。 使 用 众 数 来 描述 上 述 例 子 中 的 薪资 ,可 以 得 出 该 
公司 的 薪资 众 数 为 15 万 的 结论 。 

如 果 数 据 不 是 离散 型 数据 ,而 是 连续 型 数据 ,那么 中 位 数 的 意义 就 是 累积 概率 分 布 函数 
值 为 0. 5 的 点 ,该 点 前 的 概率 密度 函数 的 积分 等 于 0.5; 而 众 数 的 意义 则 是 使 概率 密度 函数 
值 最 大 的 点 , 即 最 大 的 峰值 对 应 的 数据 点 。 

众 数 中 位 数 和 均值 如 图 2. 3 所 示 , 对 于 仅 有 一 个 峰值 的 分 布 来 说 ,三 者 之 间 的 关系 可 
以 用 一 个 经 验 公式 来 描述 : 


概率 上 
分 布 


图 2.3 众 数 . 中 位 数 和 均值 
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Mean— Mode=3 X (Mean— Median) 
该 公式 并 不 一 定 总 是 成 立 , 但 是 可 以 在 一 定 程 度 上 反映 三 者 之 间 的 关系 。 


2.3.2 描述 数据 的 分 散 程度 


除了 了 解数 据 的 中 心 大 体 分 布 在 哪里 之 外 .通常 还 要 关注 数据 的 分 散 程 度 。 回 到 本 节 
开头 的 例子 ,假设 你 是 一 门 课程 的 教师 ,你 不 仅仅 希望 了 解 全 班 同学 成 绩 的 一 般 水 平 ,可 能 
还 希望 知道 全 班 同 学 的 成 绩 之 间 相 差 很 大 ,还 是 相差 较 小 ,这 就 是 数据 的 分 散 程度 。 
衡量 数据 的 分 散 程度 的 一 个 很 好 的 指标 是 分 位 数 ,a 分 位 数 是 从 负 无 穷 到 某 一 点 概率 
密度 函数 的 积分 (分 布 列 求 和 ) 为 a 时 那 一 点 的 值 。 比 较 常用 的 分 位 数 为 最 小 值 (可 以 认为 
是 0 分 位 数 )、0.25 分 位 数 (Qi)、 中 位 数 (0.5 分 位 数 )、0.75 分 位 数 (Qs ) 和 最 大 值 ( 可 以 认为 
是 1 分 位 数 )。 
通过 这 些 分 位 数 可 以 定义 一 些 描述 数据 分 散 度 的 指标 。 范 围 是 最 大 值 与 最 小 值 之 差 ， 
它 描述 了 数据 分 布 在 多 大 的 范围 中 ;中 间 四 分 位 数 极 差 (IQR) 是 Qs 一 Qi , 它 反映 了 数据 中 
心 部 分 的 分 散 程 度 ;五 数 概要 是 上 述 5 个 分 位 数 的 整 
体 ,通常 被 用 在 箱 线 图 中 ,用 于 形象 表示 数据 的 范围 。 9S Tp rak 
1 
1 


例如 ,对 于 下 列 学 生成 绩 列表 ,其 范围 为 98 一 67= v 
31 分 ,其 中 间 四 分 位 数 极 差 为 85—76=9 分 ,其 五 数 概 T 
要 的 箱 线 图 表示 如 图 2.4 所 示 。 从 箱 线 图 中 可 以 看 出 ， 85L 


前 25% 的 学 生成 绩 相差 较 大 ,而 中 间 50% 的 成 绩 分 布 | | 
相对 比较 集中 。 
67 98 76 78 70 82 91 85 84 85 75} i 2 4 
在 箱 线 图 中 ,有 些 数据 点 由 于 过 于 脱离 整体 ,通常 ,| | | 
希望 把 它们 单独 表示 出 来 ,这些 点 称 为 离 群 点 Lmin 


(Outlier)。 通 常 使 用 点 与 最 近 的 中 间 四 分 位 数 的 差 来 1 
判断 是 否 属于 离 群 点 ,通常 使 用 一 个 常数 (经 验 值 为 ”图 2.4 WRR: 五 数 概要 的 可 视 化 
1.5) 与 中 间 四 分 位 数 极 差 的 成 绩 来 定义 这 个 临界 差 
值 。 即 当 数 据 不 属于 以 下 区 间 时 ,认为 数据 为 离 群 点 : 
[Qi—k(Q—Q) .Q, +4(Q;-Q,) ] 

衡量 数据 分 散 程度 的 另外 两 个 常用 的 指标 是 方差 和 标准 差 。 方差 通常 用 S 表示 HE 

据 的 平方 误差 的 期 望 ,样本 的 (无 偏 ) 方 差 的 计算 公式 为 : 
Se 元 )2 lka ia] 

标准 差 通 常用 * 表示 ,标准 差 是 方差 的 均 方 根 值 。 正 态 分 布 是 一 种 典型 的 概率 分 布 , 其 

概率 密度 函数 可 以 使 用 均值 wk 和 标准 差 o 两 个 参数 来 表示 : 


1 tw? 
N(x)= eC 2 
V2no 


正 态 分 布 是 分 布 比 较 集中 的 单 峰 分 布 ,其 主要 的 概率 集中 在 均值 附近 ,其 中 ,Ly 一 o,p 十 
oj 集中 了 68% 的 概率 ,[y 一 2o,p 十 20j] 集 中 了 95 儿 的 概率 ,[w 一 3c,w 十 3c] 集 中 了 99. 7% K 
概率 。 正 态 分 布 的 概率 分 布 如 图 2. 5 所 示 。 
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-3 -2 -l 0 +1 +2 43 3 -2 -l 0 +1 +2 #43 -3 -2 -l 0 +1 42 43 
(a) [autal (b) [u-20,+20] (©) [3aur3al 
图 2.5 正 态 分 布 的 概率 分 布 


2.3.3 描述 数据 的 其 他 方式 


除了 以 上 介绍 的 描述 数据 中 心 趋势 和 描述 数据 分 散 程度 的 描述 方式 外 ,还 有 一 些 其 他 
数据 描述 方式 能 够 揭示 数据 中 的 更 多 信息 。 下 面 介绍 直方 图 、 分 位 数 图 、Q-Q 图 和 散 点 图 
这 几 种 数据 描述 方式 。 

直方 图 是 一 种 用 长 方形 表示 数据 分 布 的 统计 图 形 。 直 方 图 将 数据 的 分 布 范围 分 为 几 个 
区 间 ,并 用 面积 表示 每 个 区 间 的 数量 或 频率 分 布 。 如 在 本 节 开 始 时 的 成 绩 分 布 的 例子 中 ,可 
以 画 出 如 图 2.6 这 样 的 直方 图 。 

从 直方 图 可 以 看 出 数据 在 各 个 区 间 的 分 布 情况 , 它 比 数据 的 均值 和 方差 更 直观 地 反映 
了 数据 的 分 布 情况 ,通常 比较 数据 值 在 不 同 区 间 上 的 差异 时 会 使 用 直方 图 。 

分 位 数 图 是 一 种 反映 在 [0,1] 区 间 上 的 分 位 数 统计 图 形 。 其 横 轴 为 概率 ,通常 为 [0,1] 
区 间 ;而 纵 轴 为 对 应 横 轴 的 分 位 数 。 分 位 数 图 可 以 直观 地 看 出 中 位 数 、 上 下 四 分 位 数 等 统计 
指标 ,也 可 以 通过 斜率 看 出 数据 的 分 布 情况 。 分 位 数 图 上 ,斜率 越 低 的 地 方 分 布 越 集中 。 如 
本 节 开 始 时 的 例子 中 ,学 生成 绩 的 分 位 数 图 如 图 2.7 所 示 。 


成 绩 直方 图 i 成 绩 的 分 位 数 图 
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图 2.6 学 生成 绩 分 布 的 直方 图 图 2.7 学 生成 绩 分 布 的 分 位 数 图 


与 前 两 个 统计 图 形 不 同 ,Q-Q 图 和 散 点 图 不 是 描述 一 个 概率 分 布 的 统计 图 形 , 它 们 是 
描述 两 个 分 布 之 间 的 统计 关联 的 图 形 。 
Q-Q 图 (分 位 数 -分 位 数 图 ) 是 描述 两 个 单 变量 分 布 的 分 位 数 的 图 ,从 Q-Q 图 上 比较 容 
易 读 出 两 个 分 布 之 间 的 偏 移 。Q-Q 图 通常 用 在 两 个 分 布 比较 类 似 的 情况 ,如 一 个 行业 不 同 
品牌 的 售 价 分 布 的 比较 这 样 的 场合 。 
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对 两 个 班 的 成 绩 列表 如 下 ,可 以 得 到 Q-Q 图 如 图 2. 8 所 示 。 
A 班 : 67,98,76,78,70,82,91,85,84,85 
B 班 : 61,68,67,78,82,84,85,88,97,98 
从 图 2. 8 中 可 以 看 出 ,在 高 分 段 和 低 分 段 中 ,B 班 比 A 班 分 布 都 更 集中 一 些 。 
1207 
nor 4 
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图 2.8 两 个 班 学 生成 绩 分 布 的 Q-Q 图 


散 点 图 是 一 种 用 散 点 方式 来 描述 数据 在 多 个 维度 上 分 布 的 统计 图 形 。 通 常用 来 通过 在 
两 个 维度 上 将 数据 可 视 化 表示 ,用 以 揭示 数据 在 这 两 个 维度 上 存在 的 相关 关系 。 散 点 图 中 ， 
每 一 个 点 对 应 一 条 数据 记录 ,点 对 应 的 横 纵 坐标 即 对 应 数据 在 两 个 维度 上 的 属性 。 图 2.9 


展示 了 在 两 个 维度 有 相关 性 时 的 散 点 图 的 例子 ,图 2. 10 展示 了 两 个 维度 不 相关 的 散 点 图 。 
— ee ge acre 
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图 2.10 散 点 图 : 不 相关 数据 


散 点 图 可 以 直观 地 反映 两 个 变量 之 间 是 否 存 在 相关 与 依赖 关系 ,以 及 一 个 变量 是 否 可 

以 表示 为 男 一 个 变量 的 函数 。 当 一 个 变量 可 以 近似 表示 成 男 一 个 变量 的 函数 时 , 散 点 图 可 

以 帮助 得 出 对 两 个 变量 依赖 关系 的 直观 判断 。 根 据 数据 拟 合 两 个 变量 之 间 依 赖 关 系 的 过 程 
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称 为 回归 分 析 , 回 归 分 析 有 参数 化 方法 和 非 参数 化 方法 两 种 ,其 中 参数 化 方法 需要 对 模型 具 
有 先 验 认 识 , 这 种 先 验 认识 可 以 通过 对 散 点 图 的 观察 获得 。 


2.4 数据 清洗 


数据 清洗 是 数据 预 处 理 中 非常 重要 的 一 个 环节 ,在 这 个 环节 中 进行 的 任务 包括 填补 数 
据 中 的 缺失 值 , 识 别 数据 中 的 离 群 点 ,对 有 噪声 数据 进行 平滑 等 。 由 于 数据 挖掘 的 质量 很 大 
程度 上 依赖 于 数据 本 身 的 质量 ,而 数据 清洗 在 提升 数据 质量 方面 具有 相当 大 的 作用 ,因此 数 
据 清洗 是 数据 挖掘 中 的 重要 步骤 。 


2.4.1 数据 缺失 的 处 理 


由 于 很 少 能 从 现实 世界 中 获得 完美 的 数据 ,在 数据 预 处 理 中 ,经 常 能 够 见 到 数据 缺少 某 
些 属 性 值 的 情况 。 比 如 在 一 项 调研 中 , 受 访 者 有 时 会 拒绝 填写 个 人 收入 这 样 比较 敏感 的 数 
据 , 这 就 造成 了 数据 缺失 的 情况 。 

数据 缺失 可 能 由 各 种 原因 导致 ,采集 设备 的 故障 可 能 会 造成 空白 数据 ,一 个 属性 可 能 与 
其 他 属性 产生 冲突 而 造成 它 被 删除 ,数据 在 录入 阶段 可 能 出 现 误 解 而 未 能 录入 ,在 数据 录入 
的 时 刻 可 能 某 个 属性 并 不 受 重视 而 未 被 采集 ,采集 数据 的 需求 可 能 发 生 了 变化 造成 数据 属 
性 集合 的 变化 。 这 些 林林总总 的 理由 都 可 能 导致 数据 值 的 缺失 ,以 至 于 需要 对 这 些 数据 进 
行 分 析 时 ,部 分 数据 很 可 能 缺少 某 些 重要 的 属性 。 

怎样 处 理 缺 失 数 据 ? 最 简单 的 处 理 方法 是 当 数 据 的 某 个 属性 缺失 时 ,丢弃 掉 整 条 数据 
记录 。 这 种 处 理 方式 在 许多 时 候 是 不 得 已 而 为 之 的 策略 , 当 缺 失 的 属性 值 至 关 重 要 而 且 填 
补 属 性 值 的 意义 不 大 时 ,通常 采取 这 个 策略 。 例 如 ,类 别 标签 在 有 监督 分 类 中 是 不 可 或 缺 
的 , 当 拿 到 一 批 数据 进行 有 监督 分 类 时 ,如 果 数 据 没 有 类 别 标签 ,这 些 数据 就 无 法 在 训练 或 
测试 中 使 用 ,这 时 能 够 应 对 此 类 情况 的 最 好 策略 就 是 丢弃 这 部 分 不 完整 的 数据 。 

处 理 缺 失 数据 的 另外 一 种 方式 是 人 工 填补 缺失 值 , 即 对 于 某 些 缺 失 的 属性 ,用 人 工 的 方 
式 进 行 填补 。 人 工 填 补 的 前 提 是 数据 存在 一 定 的 元 余 , 其 缺失 属性 可 以 通过 其 他 属性 进行 
推断 。 人 工 填 补 的 方式 存在 一 些 弱 点 ,首先 是 数据 填补 的 影响 难以 预计 , 受 人 的 主观 因素 和 
知识 背景 的 影响 ;其 次 是 人 工 处 理 数据 的 规模 受到 人 工 成 本 的 限制 ,难以 处 理 较 大 规模 的 数 
据 ; 再 者 , 当 参 与 处 理 的 人 员 过 多 时 ,填补 的 标准 性 难以 得 到 保证 。 因 此 ,人 工 填 补 仅仅 应 用 
在 有 限 的 情境 下 。 

对 于 缺失 数据 采用 较 多 的 处 理 方式 是 自动 对 缺失 值 进行 填补 。 自 动 填补 数据 的 最 简单 
办 法 是 对 某 一 个 属性 字段 ,对 所 有 缺失 该 属性 的 数据 填补 统一 的 值 。 例 如 ,在 客户 调查 数据 
中 ,收入 属性 的 类 型 是 整数 ,工作 单位 属性 的 类 型 是 字符 串 , 则 可 对 未 填写 收入 的 所 有 客户 
的 收入 属性 填补 为 0, 对 未 填写 工作 单位 的 所 有 客户 的 工作 单位 属性 填补 为 空 字符 串 。 许 
多 数据 库 如 MySQL 数据 库 都 提供 了 默认 值 功能 ,可 以 自动 对 缺失 属性 填充 统一 的 默认 值 。 

使 用 统一 的 值 进行 填充 有 时 会 带 来 问题 ,例如 ,在 统计 消费 者 的 收入 水 平 , 分 析 消 费 者 
的 消费 能 力 时 ,将 缺失 的 收入 属性 统一 填充 为 0, 就 可 能 对 统计 结果 造成 偏差 ,对 相关 性 的 
分 析 造 成 干扰 。 这 时 可 以 使 用 属性 的 均值 对 该 属性 的 所 有 缺失 值 进 行 填补 ,这 样 可 以 减少 
对 数据 的 干扰 。 图 2. 11 展示 了 一 个 使 用 属性 均值 对 属性 的 缺失 值 进行 填补 的 例子 。 
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名 字 | 公司 | 工资 (元 /月 ) 名 字 公司 “| 工资 (元 /月 ) 
Amy | A 公司 13000 Amy A 公司 13000 
Alice | A 公司 ? Alice A 公司 7500 
Mike | A 公司 | 9000 填补 Mike | A 公司 9000 
Joey | BAF] 5000 Joey B 公 司 5000 
Tom B 公 司 ? Tom B 公 司 7500 
Zelda | B 公 司 3000 Zelda B 公 司 3000 


图 2.11 使 用 平均 值 填补 缺失 数据 


在 图 2. 11 所 示 的 例子 中 ,可 能 会 提出 一 个 疑问 ,从 数据 来 看 ,A 公司 的 工资 水 平 似乎 比 
B 公司 要 高 一 些 , 那 么 使 用 属性 均值 来 估计 ,很 可 能 Alice 的 工资 被 低估 了 ,而 Tom 的 工资 
被 高 佑 了。 可 以 提出 ,为 什么 不 用 相同 工作 单位 的 平均 工资 水 平 来 填补 缺失 值 呢 ? 

图 2. 12 所 示 的 例子 中 ,使 用 Amy 和 Mike 的 工资 平均 值 来 填补 Alice 的 工资 属性 ,使 
用 Joey 和 Zelda 的 工资 平均 值 来 填补 Tom 的 工资 属性 。 经 过 这 样 的 填补 ,数据 变 得 更 加 
一 致 ,也 更 加 符合 常识 。 还 可 以 利用 同类 别 属性 的 其 他 统计 特性 如 中 位 数 、 众 数 等 。 


名 字 | 公司 | 工资 (元 /月 ) 名 字 公司 “| 工资 (元 /月 ) 
Amy | A 公 司 | 13000 Amy | A 公 司 13000 
Alice | A 公司 ? Alice | A 公 司 11000 
Mike | A 公司 | 9000 填补 Mike | A 公 司 9000 
Joey | B 公 司 | 5000 Joey | B 公 司 5000 
Tom | B 公 司 ? Tom B 公 司 4000 
Zelda | B 公 司 | 3000 Zelda | B 公 司 3000 


图 2.12 使 用 同类 别 数据 的 属性 平均 值 填补 缺失 数据 


更 进一步 地 ,可 以 通过 更 加 智能 的 方式 利用 更 加 丰富 的 信息 来 处 理 缺失 值 , 可 以 将 缺失 
值 本 身 作为 预测 的 对 象 ,通过 一 些 存在 的 属性 来 对 缺失 值 进行 预测 。 例 如 ,可 以 通过 客户 的 
工作 单位 ,学历 水 平 、 存 款 的 多 少 ,不 动产 的 状况 来 对 客户 的 收入 进行 预测 。 可 以 采用 的 预 
测 方法 如 线性 回归 ,决策 树 模型 和 最 大 似 然 估计 等 。 


2.4.2 数据 清洗 


数据 噪声 是 指数 据 中 存在 的 随机 性 错误 和 偏差 ,许多 原因 可 能 导致 这 些 错 误 与 偏差 。 
其 中 ,数据 采集 中 一 些 客观 因素 的 制约 带 来 了 数据 噪声 。 数 据 采 集 设备 可 能 具有 缺陷 和 技 
术 限 制 。 例 如 ,在 数码 相机 中 使 用 的 CCD( 电 荷 耦合 设备 ) 图 像 传感器 本 身 可 能 具有 暗 电流 
和 热 噪 声 ,不 可 避免 地 造成 图 像 中 的 噪声 ,这 种 情况 在 暗 光 条 件 下 表现 得 尤为 突出 。 数 据 传 
输 中 信道 一 般 是 有 失真 的 。 例 如 ,在 模拟 电视 信号 的 传输 中 ,像素 的 亮度 等 信息 都 是 采用 模 
拟 方 式 调制 的 ,这 使 得 模拟 电视 信号 容易 出 现 色 度 损 失 、 变 形 、 拌 动 和 串扰 等 情况 。 同 时 , 数 
据 采集 过 程 中 的 人 为 错误 也 会 引起 噪声 ,如 数据 录入 中 的 读数 误差 ,对 于 数据 的 命名 约定 不 
一 致 等 情况 都 会 造成 错误 的 数据 值 。 

在 数据 挖掘 领域 中 ,为 了 保证 数据 预 处 理工 作 的 高 效 ,为 了 处 理 噪 声 数据 ,通常 用 到 的 
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方法 是 分 箱 、 聚 类 分 析 和 回归 分 析 等 ,有 时 也 会 将 计算 机 判决 与 人 的 主观 判断 相 结 合 。 
分 箱 是 一 种 将 数据 排序 并 分 组 的 方法 ,通常 使 用 的 分 箱 方式 有 等 宽 分 箱 和 等 频 分 箱 。 
所 谓 等 宽 分 箱 , 是 用 同等 大 小 的 格子 来 将 数据 范围 分 成 N 个 间隔 , 箱 宽 为 : 


w max(data)— min (data) 
N 


等 宽 分 箱 比较 直观 和 容易 操作 ,但 是 对 于 有 尾 分 布 的 数据 ,等 宽 分 箱 并 不 是 太 好 ,可 能 
出 现 许 多 箱 中 没有 样本 点 的 情况 。 另 一 种 分 箱 方式 是 等 频 分 箱 ,等 频 分 箱 又 称 为 等 深 分 箱 ， 
这 种 分 箱 方法 将 数据 分 成 N 个 间隔 ,每 个 间隔 包含 大 致 相同 的 数据 样本 点 数 ,这 种 分 箱 方 
法 具有 较 好 的 可 扩展 性 。 

将 数据 分 箱 后 ,可 以 用 箱 均 值 箱 中 位 数 和 箱 边 界 来 对 数据 进行 平滑 ,平滑 可 以 在 一 定 
程度 上 削弱 离 群 点 对 数据 的 影响 。 下 面 用 一 个 例子 来 说 明 使 用 分 箱 处 理 噪 声 数据 。 

例 2-2 对 如 下 数据 采用 分 箱 方式 进行 平滑 : 4,8,9,15,21,21,24,25,26,28,29,34 数 
据 共有 12 个 样本 , 故 可 以 将 其 分 成 等 频 的 3 个 箱 , 每 个 箱 中 有 4 个 样本 。 

箱 1: 4,8,9,15 

箱 2: 21,21,24,25 

箱 3: 26,28,29,34 

使 用 箱 均 值 进行 平滑 ,用 每 个 箱 中 数据 的 均值 来 代替 每 个 数据 

箱 1: 9, 9, 9, 9 

#2: 22.75, 22.75, 22.75, 22.75 

箱 3: 29.25, 29.25, 29.25, 29.25 

使 用 箱 中 位 数 进行 平滑 ,用 每 个 箱 中 数据 的 中 位 数值 来 代替 每 个 数据 : 

箱 1: 8.5, 8.5, 8.5, 8.5 

箱 2: 22.5, 22.5, 22.5, 22.5 

箱 3: 28.5, 28.5, 28.5, 28.5 

使 用 箱 边界 进行 平滑 ,用 每 个 箱 边界 中 距离 数据 样本 点 最 近 的 边界 值 来 代替 数据 样 
本 点 : 

箱 1: 4, 4，4，15 

fi 2:21, 21, 25, 25 

#13: 26. 26, 26, 34 

聚 类 分 析 是 一 种 将 相似 数据 聚 在 一 起 ,将 不 相似 的 数据 分 开 的 过 程 。 聚 类 通常 用 来 发 
现 数据 中 隐藏 的 结构 ,在 没有 标注 的 情况 下 将 数据 分 为 一 些 类 别 , 通 过 聚 类 分 析 还 可 以 发 现 
数据 中 的 离 群 点 等 信息 。 聚 类 的 一 个 例子 如 图 2. 13 所 示 ,在 图 中 数据 点 被 分 为 三 个 数据 簇 
(Cluster) 。 

在 数据 清洗 中 ,可 以 对 数据 进行 聚 类 ,然后 使 用 聚 类 结果 对 数据 进行 处 理 , 如 舍弃 离 群 
点 、 对 数据 进行 平滑 等 。 对 数据 进行 平滑 的 方法 类 似 于 分 箱 , 可 以 采用 中 心 点 平滑 ,均值 点 
平滑 等 方式 来 处 理 , 这 里 就 不 再 袭 述 。 

回归 分 析 是 一 种 确定 变量 依赖 的 定量 关系 的 分 析 方法 。 在 正确 的 建 模 下 ,回归 分 析 可 
以 揭示 数据 变量 之 间 的 依赖 关系 ,通过 回归 分 析 进 行 的 预测 能 够 比较 接近 数据 的 真实 值 。 
图 2. 14 所 示 是 一 种 简单 的 回归 分 析 一 一 线性 回归 的 一 个 示例 。 
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B 2.13 聚 类 (示意 图 ) 


对 于 建立 好 的 回归 分 析 模 型 ,可 以 使 用 参数 估计 方法 
对 模型 参数 进行 估计 。 如 果 具 有 对 数据 的 某 种 先 验 知识 ， 
使 得 模型 符合 数据 的 实际 情况 ,并 且 参 数 估计 是 有 效 的 ， 
就 可 以 使 用 回归 分 析 的 预测 值 来 代替 数据 的 样本 值 ,以 削 
弱 数 据 中 的 噪声 ,并 降低 数据 中 离 群 点 的 影响 。 

数据 清洗 的 过 程 通常 是 由 两 个 过 程 的 交替 迭代 组 成 
的 : 数据 异常 的 发 现 和 数据 的 清洗 。 对 于 数据 首先 需要 
进行 审查 ,根据 先 验 知识 如 数据 的 取 值 范 围 数据 依赖 性 、 
数据 的 分 布 , 数 据 的 唯一 性 .连续 性 和 空 / 非 空 性 质 等 ,可 Sei ae 
以 发 现 数据 中 存在 的 异常 现象 。 在 发 现 数据 异常 后 ,使 用 
数据 清洗 方法 对 数据 进行 转换 。 数 据 转换 可 以 使 用 专门 的 数据 迁移 工具 进行 ,通常 称 为 
ETL(Extract, Transform, Load) TH. 


2.5 数据 集成 和 转换 


2.5.1 数据 集成 


数据 集成 是 将 不 同 来 源 的 数据 整合 并 一 致 地 存储 起 来 的 过 程 。 不 同 来 源 的 数据 可 能 有 
不 同 的 格式 ,不 同 的 元 信息 和 不 同 的 表示 方式 等 。 当 需要 对 这 些 数 据 进行 统一 处 理 时 ,首先 
需要 将 它们 变 成 一 致 的 形式 。 通 常 这 个 过 程 牵涉 到 数据 架构 的 集成 ,处 理 属性 值 冲突 ,处理 
数据 元 余 性 ,对 数据 进行 转化 等 的 处 理 过 程 。 下 面 介绍 数据 集成 过 程 中 两 个 主要 的 问题 : 
数据 元 余 和 数据 转换 。 


2.5.2 数据 元 余 性 


在 多 源 数据 的 集成 过 程 中 经 常会 遇 到 数据 元 余 的 问题 ,数据 元 余 可 能 由 许多 技术 和 业 
务 上 的 原因 导致 ,同一 属性 或 对 象 在 不 同 的 数据 库 中 的 名 称 可 能 是 不 同 的 , 某 些 属性 可 能 是 
由 其 他 属性 导出 的 ,这 些 原因 都 可 能 导致 数据 的 宛 余 性 。 
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数据 的 宛 余 性 可 以 通过 对 数据 进行 相关 性 分 析 发 现 ,对 于 发 现 的 数据 元 余 进行 处 理 , 可 
以 消除 和 避免 元 余 性 ,进而 提高 数据 挖掘 的 效果 和 效率 。 下 面 介 绍 两 种 数据 相关 性 的 分 析 
工具 一 一 皮尔 森 相关 系数 和 卡 方 检验 。 

皮尔 森 相关 系数 计算 两 个 数值 向 量 之 间 的 相关 性 ,其 计算 方法 如 下 : 


S Ajn] B[n]—- B S‘A[n]B[n]-nA B 


n=0 


TR (n— 1) 640g (n— 1) 640g 


其 中 , A = 二 DAC],B = ES Btn] 为 样本 均值 ,oa 为 A 向 量 的 无 偏 标准 差 ,os 为 B 向 


量 的 无 偏 标准 差 。 当 相关 系数 大 于 0 时 , 称 两 个 向 量 正 相 关 ; 当 相关 系数 小 于 0 时 , 称 两 个 
向 量 负 相 关 ; 当 相关 系数 等 于 0 时 , 称 两 个 向 量 不 相关 。 容 易 得 出 ,相关 系数 的 取 值 范围 是 
[一 1,1]。 图 2. 15 用 不 同 相位 的 余弦 函数 展示 了 皮尔 森 相关 系数 的 一 个 例子 。 
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图 2.15 皮尔 森 相 关系 数 


对 于 非 数 值 型 的 变量 ,计算 其 相关 性 可 以 使 用 卡 方 检验 方法 进行 , 卡 方 检验 的 计算 方 
式 为 : 


2-5 (Q; — 
其 中 , 求 和 是 对 每 一 种 不 同 的 变量 取 值 情形 进行 的 ,O; 是 实际 观测 到 的 概率 ,而 E; 是 在 变 
量 彼此 独立 的 假设 下 该 情况 发 生 概 率 的 估计 。 
例 2-3 某 社交 网 站 的 用 户 习 惯 调查 中 收集 了 1000 名 用 户 对 于 “是 否 喜 欢 下 国际 象棋 ” 
和 “是 否 喜欢 科幻 小 说 ”的 回应 ,分 析 用 户 这 两 种 喜好 之 间 是 否 存 在 相关 关系 。 


人 A 喜欢 下 国际 象棋 不 喜欢 下 国际 象棋 
喜欢 科幻 小 说 300 150 
不 喜欢 科幻 小 说 50 500 
在 两 个 变量 独立 的 假设 下 : 
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巨 (喜欢 下 国际 象棋 上 且 喜 欢 科幻 小 说 ) = P( 喜 欢 下 国际 象棋 )P( 喜 欢 科幻 小 说 ) 
P( 喜 欢 下 国际 象棋 ) ~ 300 十 50 _ 0. 35 


1000 
ree wa) 300 十 150 _ | ap 
P( 喜 欢 科 幻 小 说 ) ~ ar 0.45 
而 在 实际 观测 下 : 
O( 喜 欢 下 国际 象棋 且 喜 欢 科 幻 小 说 ) se SOC 一 0. 3 


类 似 地 ,可 以 计算 出 每 个 格子 对 应 的 O; 5 E; ,数据 分 布 的 卡 方 统计 量 为 : 

¥ (300 KNEE SE 4 O80 202,52 + (507192.5 十 《500 — 357.5) 

计算 出 统计 量 后 ,结合 卡 方 统计 量 的 分 布 , 就 可 以 通过 假设 检验 判断 变量 间 的 相关 性 是 
否 成 立 。 在 这 里 可 以 不 严格 地 看 出 ,这 两 个 变量 间 还 是 存在 一 定 的 相关 关系 的 。 

在 对 数据 进行 相关 性 分 析 时 ,需要 注意 的 是 ,相关 性 并 不 意味 着 因果 关系 。 例 如 ,一 个 
城市 居民 购买 节能 灯泡 的 总 数量 和 当地 政府 的 节能 宣传 的 总 开支 可 能 存在 相关 关系 ,但 是 
并 不 一 定 构成 因果 关系 ,因为 这 两 者 可 能 都 与 城市 的 人 口 数量 成 正 相关 关系 。 把 相关 关系 
错 当成 因果 关系 可 能 会 得 出 荒 廖 的 结论 。 


2.5.3 数据 转换 


数据 在 集成 过 程 中 很 多 情况 下 需要 进行 转换 ,数据 转换 包括 平滑 、 聚 合 . 泛 化 .规范 化 、 
属性 和 特征 的 重 构 等 操作 。 

(1) 数据 平滑 。 数 据 平滑 是 将 噪声 从 数据 中 移 除 的 过 程 。 数 据 平滑 通常 是 对 数据 本 身 
进行 的 ,如 在 连续 性 的 假设 下 ,对 时 间 序 列 进行 平滑 ,以 降低 异常 点 的 影响 ;数据 平滑 有 时 也 
指 对 概率 的 平滑 ,例如 在 自然 语言 处 理 中 常用 的 元 语言 模型 中 ,对 于 未 在 训练 样本 中 出 现 
过 的 词组 一 般 不 能 赋予 零 概率 ,和 否则 会 使 整 句 话 概率 为 0, 对 这 些 词 赋予 合理 的 非 零 概率 的 
过 程 也 称 为 数据 平滑 。 

(2) 数据 聚合 。 数 据 聚 合 是 将 数据 进行 总 结 描述 的 过 程 。 数 据 聚 合 的 目的 一 般 是 为 了 
对 数据 进行 统计 分 析 ,数据 立方 体 和 在 线 分 析 处 理 (OLAP) 都 是 数据 聚合 的 形式 。 

(3) 数据 泛 化 。 数 据 泛 化 是 将 数据 在 概念 层次 上 转化 为 较 高 层次 的 概念 的 过 程 。 例 
如 ,将 一 个 词语 蔡 换 为 词语 的 同义词 的 过 程 ,将 分 类 替换 为 其 父 分 类 的 过 程 等 都 是 数据 
泛 化 。 

(4) 数据 规范 化 。 数 据 规范 化 是 将 数据 的 范围 变换 到 一 个 比较 小 的 、 确 定 的 范围 的 过 
程 。 数 据 规范 化 在 一 些 机 器 学 习 方法 的 预 处 理 中 比较 常用 ,可 以 改善 分 类 效果 和 抑制 过 学 
习 。 常 用 的 数据 规范 化 方法 有 最 小 最 大 规范 化 .z-score 规范 化 和 十 进 制 比例 规范 化 等 。 最 
小 最 大 规范 化 是 用 数据 的 最 小 最 大 值 将 数据 转化 到 某 一 区 间 的 方法 ,如 下 的 公式 是 最 小 最 
大 规范 化 的 例子 , 它 将 数据 映射 到 [0,1] 区 间 。 

af = T — Tmin 

z-score 规范 化 使 用 数据 的 均值 p 和 标准 差 来 将 数据 转化 到 某 个 区 间 ,如 下 的 公式 为 

z-score 标准 化 的 例子 ,规范 化 后 的 数据 均值 为 0, 标准 差 为 1。 
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十 进 制 比例 规范 化 使 用 数据 绝对 值 的 极 值 进行 规范 化 ,对 数据 仅 使 用 十 进 制 放 缩 的 方 
式 进行 规范 化 。 如 要 将 564,46 ,一 234, 一 19 这 几 个 数 进行 规范 化 ,其 绝对 值 的 极 值 为 564， 
要 将 其 规范 化 到 [一 1,1] 区 间 , 对 所 有 数据 除 以 1000, 即 大 于 极 值 的 最 小 的 10 的 整数 次 寡 。 
规范 化 的 结果 为 0.564,0. 046 ,一 0. 234, 一 0.019。 十 进 制 比例 规范 化 只 需 移动 小 数 点 的 位 
置 ,在 一 些 应 用 中 比较 容易 实现 。 在 数字 信号 处 理 中 ,规范 化 经 常会 采用 类 似 的 二 进 制 比例 
规范 化 ,因为 这 种 操作 仅 需 移 位 运算 。 

特征 构造 是 根据 需要 ,利用 数据 中 已 经 有 的 属性 来 构造 新 的 属性 的 过 程 。 


2.6 数据 归 约 和 变换 


2.6.1 数据 归 约 


在 实际 应 用 中 ,数据 仓库 可 能 存 有 海量 数据 ,在 全 部 数据 上 进行 复杂 的 数据 分 析 和 挖掘 
工作 所 消耗 的 时 间 和 空间 成 本 巨大 ,这 就 催生 了 对 数据 进行 归 约 的 需求 。 数 据 归 约 是 用 更 
简化 的 方式 来 表示 数据 集 , 使 得 简化 后 的 表示 可 以 用 较 少 的 数据 量 来 产生 与 挖掘 全 体 数 据 
类 似 的 效果 。 

数据 归 约 可 以 从 几 个 方面 人手 : 如 果 对 数据 的 每 个 维度 的 物理 意义 很 清楚 ,就 可 以 售 
弃 某 些 无 用 的 维度 ,并 使 用 平均 值 . 汇 总 和 计数 等 方式 来 进行 聚合 表示 ,这 种 方式 称 为 数据 
立方 体 聚 合 ;如 果 数 据 只 有 有 些 维度 对 数据 挖掘 有 益 , 就 可 以 去 除 不 重要 的 维度 ,保留 对 控 
握 有 帮助 的 维度 ,这 种 方式 称 为 维度 归 约 :如果 数据 具有 潜在 的 相关 性 ,那么 数据 实际 的 维 
度 可 能 并 不 高 ,可 以 用 变换 的 方式 ,用 低 维 的 数据 对 高 维 数据 进行 近似 的 表示 ,这 种 方式 称 
为 数据 压缩 ;另外 一 种 处 理 数据 相关 性 的 方式 是 将 数据 表示 为 不 同 的 形式 来 减 小 数据 量 ,如 
聚 类 、 回 归 等 ,这 种 方式 称 为 数据 块 消减 。 

以 下 分 别 对 这 些 数 据 归 约 方法 进行 介绍 。 


1. 数据 立方 体 聚 合 


数据 立方 体 是 一 种 数据 表示 和 分 析 的 工具 , 它 将 数据 表示 为 多 维 的 矩阵 ,可 以 对 数据 进 
行 聚合 运算 如 计数 . 求 和 和 求 平 均值 等 操作 。 数 据 立方 体 将 在 第 3 章 中 详细 介绍 。 

利用 数据 立方 体 可 以 对 数据 进行 归 约 ,从 而 得 到 能 够 解决 问题 的 数据 的 最 小 表示 方式 。 

图 2. 16 展示 了 数据 立方 体 聚 合 的 一 个 例子 ,对 于 一 张 员工 工资 列表 ,如 果 希 望 挖掘 不 
同 公司 中 学 历 与 工资 的 关系 ,可 以 使 用 数据 立方 体 来 将 数据 表示 成 图 中 右边 表格 的 方式 , 约 
简 后 的 数据 相 比 源 数据 的 数据 量 大 大 减少 。 

2. 特征 选择 

特征 选择 在 数据 预 处 理 和 和 迭代 调整 的 学 习 中 都 有 较 多 的 使 用 ,目的 是 对 于 给 定数 据 挖 
MAES ,选择 效果 较 好 的 较 小 特征 集合 。 在 预 处 理 中 ,特征 选择 通常 希望 能 使 得 在 选择 出 的 
特征 集合 下 的 类 别 的 概率 分 布 能 够 尽量 接近 于 在 全 部 特征 下 的 类 别 的 概率 分 布 ,这 是 为 了 
权衡 空间 复杂 度 .时 间 复 杂 度 和 数据 挖掘 效果 的 折 中 。 
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名 字 公司 | 学 历 | 月 工资 
Amy | A 公 司 | 硕士 | 13 000 平均 学 历 
Alice | A 公司 | 本 科 | 10 000 月 工资 | 硕士 | 本 科 
Mike | A 公 司 | 本 科 | 9000 a> 公 | A | 13000 | 9500 
Joey | B 公 司 | 硕士 | 5000 =I | B | sooo | 3500 
Tom | B 公 司 | 本 科 | 4000 
Zelda | B 公 司 | 本 科 | 3000 


图 2.16 数据 立方 体 聚合 


在 原始 的 特征 有 NN 维 的 情况 下 ,特征 子 集 的 可 能 情况 有 2N 种 情形 ,在 N 较 大 的 情况 
下 对 这 些 情形 一 一 考察 其 好 坏 是 不 现实 的 。 通 常 使 用 启发 式 的 方法 进行 特征 选择 ,如 前 向 
特征 选择 ,后 向 特征 消减 以 及 采用 决策 树 归纳 进行 特征 选择 等 。 

前 向 特征 选择 是 通过 选择 新 的 特征 添加 到 特征 集合 中 ,使 得 扩充 后 的 特征 集合 具有 更 
好 的 特性 。 对 于 特征 的 衡量 可 以 使 用 条 件 独 立 性 ,在 已 有 特征 集合 的 条 件 下 ,通过 显著 性 检 
验 来 确定 与 类 别 最 相关 的 特征 。 在 迭代 调整 的 学 习 中 ,一 种 前 向 特征 选择 的 方法 是 随机 向 
特征 集合 中 添加 特征 ,如 果 结 果 有 改善 则 保留 特征 ,否则 就 不 采用 新 添加 的 特征 ,重新 进行 
挑选 。 

后 向 特征 消减 是 通过 从 特征 集合 中 取出 最 差 的 特征 ,使 得 新 的 特征 集合 具有 更 好 的 特 
性 。 最 佳 的 特征 选择 方法 一 般 会 结合 重复 地 使 用 前 向 和 后 向 特征 选择 方法 ,通过 迭代 调整 
来 达到 较 好 的 特征 集合 。 

决策 树 归 纳 方法 进行 特征 选择 是 借助 决策 树 构建 来 选择 较 小 特征 集合 的 方法 。 决 策 树 
是 一 种 树 状 的 分 类 模型 , 样 例 在 每 一 个 非 叶 子 节点 进行 对 一 个 属性 的 判断 ,每 个 指向 子孙 节 
点 的 路 径 代表 一 种 属性 值 的 情形 ,叶子 节点 为 最 终 判 断 的 类 别 。 决 策 树 的 构建 中 ,优先 选择 
最 好 的 特征 来 作为 根 节点 ,然后 对 于 每 种 可 能 的 情形 ,递归 地 建立 子 树 , 如 果 某 种 情形 的 样 
例 集合 只 包含 一 种 类 别 ,就 可 以 用 类 别 标签 作为 叶子 节点 ,停止 子 树 的 生长 。 如 果 建 立 的 完 
整 决策 树 不 包含 某 些 特 征 , 就 意味 着 不 使 用 这 些 特 征 即 可 完整 地 描述 数据 的 分 类 模型 ,因此 
可 以 使 用 决策 树 中 非 叶 子 节点 的 特征 作为 约 简 的 特征 集合 。 另 外 ,使 用 剪 枝 方法 ,或 限制 决 
策 树 生 长 的 层 数 ,也 可 以 限制 决策 树 使 用 的 特征 数量 ,得 到 比较 重要 的 特征 作为 约 简 的 特征 
集合 。 


3. 数据 压缩 


数据 压缩 是 在 尽量 保存 原 有 数据 中 信息 的 基础 上 ,用 尽量 少 的 空间 表示 原 有 的 数据 。 
数据 压缩 分 为 有 损 压 缩 和 无 损 压 缩 , 有 损 压 缩 后 的 数据 信息 量 少 于 原 有 的 数据 ,因而 无 法 完 
全 恢复 成 原 有 的 数据 ,只 能 以 近似 的 方式 恢复 ;无 损 压 缩 没有 这 一 限制 ,从 压缩 后 的 数据 可 
以 完全 恢复 原 有 数据 。 

无 损 压 缩 一 般 用 于 字符 串 的 压缩 ,被 广泛 应 用 在 文本 文件 的 压缩 中 。 在 信息 论 领 域 , 这 
一 问题 在 信 源 编码 中 得 到 了 深入 研究 ,如 霍 夫 曼 提 出 的 具有 理论 意义 的 Huffman 编码 ,以 
及 广泛 使 用 于 gzip,deflate 等 软件 中 的 LZW 算法 (由 Abraham Lempel.Jacob Ziv 和 Terry 
Welch 提出 ,基于 该 算法 的 专利 在 2003 年 6 月 20 日 后 失效 ) 等 都 是 无 损 压 缩 方 法 。 

sais 


在 图 像 和 音 视 频 压 缩 中 通常 使 用 有 损 压 缩 , 在 图 像 压 缩 中 常见 的 离散 小 波 变换 就 是 一 
种 有 损 压 缩 ,仅仅 保存 很 少 一 部 分 较 强 的 小 波 分 量 , 可 以 在 图 像 质量 无 明显 下 降 的 情况 下 获 
得 相当 高 的 压缩 率 。 

主 成 分 分 析 (Principal Component Analysis,PCA) 是 一 种 正 交 线性 变换 , 它 将 数据 通过 
正 交 变换 到 新 的 坐标 系 中 ,其 中 第 一 个 分 量 有 最 大 的 方差 ,第 二 个 分 量 有 第 二 大 的 方差 , 依 
此 类 推 ,数据 主要 的 能 量 集中 在 前 几 个 分 量 中 。 主 成 分 分 析 可 以 帮助 人 们 了 解数 据 的 结构 ， 
通常 在 处 理 维 数 较 多 的 数值 型 数据 中 进行 应 用 。 


4, 其 他 数据 归 约 方法 


除了 以 上 提 到 的 方法 之 外 ,还 可 以 对 数据 进行 不 同形 式 的 表示 ,以 减 小 数据 量 。 一 般 可 
以 将 这 些 方法 分 为 参数 式 方法 和 非 参数 式 方法 。 参 数 式 方法 使 用 模型 对 数据 进行 描述 , 通 
过 一 定 的 准则 (如 最 小 错误 概率 准则 、 最 小 二 乘 准 则 、 最 大 似 然 准则 和 最 大 后 验 概率 准则 等 
来 估计 最 佳 参数 ,参数 估计 完成 后 ,就 不 再 使 用 原始 数据 ,而 是 使 用 模型 和 参数 来 描述 数据 。 
非 参 数 式 方法 不 使 用 模型 来 描述 数据 ,而 是 直接 对 数据 进行 转换 ,如 采样 . 聚 类 和 直方 图 统 
计 等 。 
回归 分 析 是 一 种 典型 的 参数 式 方法 ,回归 分 析 的 一 般 表 达 式 如 下 : 
Y = F(X;8)+E 
其 中 ,下 为 模型 的 表达 式 ,X 为 自 变量 ,Y 为 因 变 量 ,8 为 模型 的 未 知 参数 , 尼 为 误差 ,X、Y、B、 
EE 都 可 以 是 标量 或 矢量。 回归 分 析 的 目的 就 是 在 一 定 条 件 下 估计 最 好 的 参数 8。 根 据 不 同 
的 应 用 问题 和 估计 方法 ,通常 对 误差 有 不 同 的 假设 。 例 如 ,在 信号 处 理 中 经 常会 假设 误 
差 是 高 斯 白 噪声 ,各 分 量 服从 高 斯 分 布 N(0,0), 且 各 分 量 彼此 不 相关 ,在 最 大 似 然 准则 下 ， 
估计 有 8 的 问题 就 变 成 了 : 
p= argmaxp (Y 58, X) 
1 1 (yi — fi (Xs d 
B= argmax aay Tex 7 ( fil A) ) 
B= argmin >) (v: = fi (X48) )* 
即 最 小 化 误差 的 平方 之 和 。 最 后 的 表达 式 称 为 最 小 二 乘 方法 ,高 斯 在 1795 年 就 曾经 使 
用 该 方法 研究 行星 运动 。 最 小 二 乘 方法 最 大 的 特点 在 于 不 对 误差 的 概率 分 布 做 假设 ,因此 
可 以 广泛 地 适用 于 各 种 回归 模型 。 
回归 分 析 中 一 类 最 简单 的 模型 是 线性 模型 ,使 用 线性 模型 进行 的 回归 分 析 称 为 线性 回 
归 。 线 性 回归 的 模型 如 下 : 


Y = FrX+p, 
一 元 线性 回归 的 模型 为 : 
y= fxr Bo 
一 元 线性 回归 在 平面 上 表现 为 一 条 直线 ,图 2. 14 是 线性 回归 的 一 个 示例 。 
直方 图 是 一 种 对 数据 的 可 视 化 描述 方法 , 它 将 数据 分 箱 后 统计 每 个 箱 中 数据 的 计数 (总 
和 /平均 ) ,分 箱 方法 有 等 宽 分 箱 与 等 频 分 箱 等 。 使 用 直方 图 来 对 数据 进行 归 约 后 ,仅仅 存储 
每 个 箱 中 数据 的 计数 ,图 2.6 是 直方 图 的 一 个 示例 。 
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聚 类 是 根据 数据 相似 性 将 数据 聚 成 复 的 方法 , 聚 类 分 析 在 前 文中 已 经 介绍 过 ,会 在 后 面 
进行 更 详细 的 介绍 。 使 用 聚 类 进行 数据 归 约 后 ,仅仅 存储 聚 类 中 心 . 类 半径 等 数据 。 图 2. 13 
是 聚 类 的 一 个 示例 。 

采样 方法 是 仅仅 抽取 数据 的 一 个 子 集 来 代表 数据 
的 方法 , 它 直 接 从 数量 上 对 数据 量 进行 消减 。 最 简单 
的 采样 方法 是 简单 随机 采样 (SRS), 即 随机 地 从 所 有 
N 个 数据 中 抽取 M 个 数据 ,简单 随机 采样 分 为 有 放 回 
的 简单 随机 采样 (SRSWR) 和 无 放 回 的 简单 随机 采样 
(SRSWOR) ,两 者 的 差别 在 于 从 总 体 数据 中 拿 出 一 个 
数据 后 ,是 否 将 这 个 数据 放 回 ,图 2. 17 是 这 两 种 简单 
随机 采样 的 一 个 示例 。 有 放 回 的 简单 随机 采样 得 到 一 
份 样本 的 概率 为 : 


图 2.17 简单 随机 采样 


1 
P= Na 
而 无 放 回 的 简单 随机 采样 得 到 一 份 样本 的 概率 则 为 : 


i oe ee (N=M)! 
P-N N I “NSM N! 


在 数据 分 布 非常 不 对 称 的 情况 下 ,简单 随机 采样 可 能 产生 非常 差 的 效果 ,这 时 可 以 使 用 
更 具 适 应 性 的 采样 方法 如 分 层 采样 将 数据 分 层 , 并 根据 每 层 的 比例 在 该 层 中 采样 。 


2.6.2 数据 离散 化 


计算 机 存储 器 无 法 存储 无 限 精 度 的 值 ,计算 机 处 理 器 也 不 能 对 无 限 精度 的 数 进行 处 理 ， 
因此 在 数据 预 处 理 中 需要 进行 数据 的 离散 化 。 另 外 , 某 些 数据 挖掘 方法 需要 离散 值 的 属性 ， 
这 也 催生 了 对 数据 进行 离散 化 的 需要 。 

数据 离散 化 是 对 数据 的 属性 值 进行 的 预 处 理 , 它 是 将 属性 值 划分 为 有 限 个 部 分 ,之 后 使 
用 这 个 部 分 的 标签 来 代替 原来 的 属性 值 。 实 际 上 ,所 有 采集 到 存储 器 中 的 数据 都 已 经 经 过 
了 离散 化 ,这 里 提 到 的 数据 离散 化 是 指 显 式 地 对 数据 的 属性 值 划分 部 分 并 将 属性 的 值 蔡 换 
为 所 属 部 分 的 标签 。 数 据 离散 化 的 方法 主要 有 分 箱 、 聚 类 、 自 项 向 下 拆 分 、 自 底 向 上 合并 等 。 

使 用 分 箱 的 数据 离散 化 方法 是 通过 先 将 属性 值 分 箱 , 再 将 属性 值 蔡 换 为 箱 标签 的 离散 
化 方法 ;使 用 聚 类 的 数据 离散 化 方法 是 通过 先 将 属性 值 聚 类 ,再 使 用 类 标签 作为 新 的 属性 值 
的 离散 化 方法 。 分 箱 和 聚 类 在 本 章 都 介绍 过 ,这 里 不 再 袭 述 。 下 面 介绍 三 种 通过 拆 分 和 合 
并 来 进行 数据 离散 化 的 方法 : 基于 信息 增益 的 离散 化 .基于 卡 方 检验 的 离散 化 和 基于 自然 
分 区 的 离散 化 。 


1. 基于 信息 增益 的 离散 化 


在 进行 数据 离散 化 的 过 程 中 ,如 果 关 注 点 主要 在 于 属性 值 的 离散 化 能 够 有 助 于 提高 分 
类 的 准确 性 ,那么 可 以 使 用 信息 增益 来 进行 数据 离散 化 。 这 种 离散 化 方法 是 一 种 自 顶 向 下 
的 拆 分 方法 ,从 属性 值 的 整体 S 开始 ,使 用 一 个 边界 工 来 对 属性 值 进行 划分 ,如 果 属 性 值 划 
BMT n BOK ,分 别 为 S ,…,S,-: :那么 S 被 了 划分 的 信息 增益 就 是 : 
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I(S,T)= Entropy(S)— $) a + Entropy(S;) 
hii Entropy) FAK iat — TAY TAL EE. ER BE m 个 分 类 ,那么 一 个 集合 S 


BY Ho : 
Entropy (S;)=— 2 p; log: (p; ) HP p; ie | sf — 
选择 使 得 信息 增益 T(CS,T) 最 大 的 边界 工 ,可 以 使 得 属性 值 离散 化 带 来 的 对 分 类 信息 的 
损失 最 小 ,同样 的 过 程 可 以 适用 于 子 分 区 ,这 样 一 直 分 下 去 ,直到 满足 停止 的 条 件 。 


2. 基于 卡 方 检验 的 离散 化 


在 数据 元 余 性 一 节 中 曾 提 到 卡 方 检验 , 它 是 通过 两 个 变量 的 联合 分 布 来 衡量 它们 是 否 
独立 的 一 种 统计 工具 。 在 数据 离散 化 中 也 可 以 引入 这 种 思想 ,对 于 一 个 属性 的 两 个 相 邻 的 
取 值 区 间 ,“ 属 性 值 处 于 哪 一 个 的 区 间 ” 与 “数据 属于 哪 一 个 类 别 ” 这 两 个 变量 的 独立 性 可 以 
表明 是 否 应 该 合并 两 个 区 间 。 如 果 两 个 变量 独立 ,那么 属性 值 在 哪个 区 间 是 不 影响 分 类 的 ， 
意味 着 这 两 个 区 间 可 以 合并 。 

因此 可 以 提出 如 下 自 底 向 上 的 区 间 合 并 算法 来 对 数据 进行 离散 化 : 每 次 寻找 相关 性 最 
小 的 两 个 相 邻 区 间 进 行 合 并 ,循环 运行 直到 停止 条 件 。 

算法 2.1 基于 卡 方 检验 的 数据 离散 化 

ChiMerge (D) 

输入 :数据 Bid, ad,…, dh 

输出 :区 间 I, E+, 下 

(将 数据 芍 属性 a 的 每 个 不 同 的 属性 值 都 视 为 一 个 单独 的 区 间 , 即 区 间 T, Eye, To 

(2) 对 于 相 邻 的 区 间 Te, Le, 对 其 中 数据 进行 卡 方 检验 , 卡 方 检验 的 变量 是 所 属 区 间 和 所 属 类 别 。 

(3) 若 2) 中 所 得 的 最 小 卡 方 值 对 应 的 区 间 对 是 王 玉 :* 而 且 未 到 终止 条 件 , 则 合并 两 个 区 间 ,重新 编 

号 ,重复 进行 第 2) 步 。 

(4) 算法 结束 ,将 合并 后 的 区 间 返 回 。 


3. 基于 自然 分 区 的 离散 化 


在 实际 问题 中 有 时 也 会 采用 一 些 经 验 性 的 方法 ,如 自然 分 区 法 , 即 3-4-5 规则 。 这 种 方 
法 将 数值 型 的 数据 分 成 相对 规整 的 自然 分 区 ,规则 如 下 : 

(1) 如 果 一 个 区 间 包 含 的 不 同 值 的 数量 的 最 高 有 效 位 是 3,6 或 9, 将 该 区 间 等 宽 地 分 为 
3 SKE; 

(2) 如 果 最 高 有 效 位 是 2,4 或 8, 将 该 区 间 等 宽 地 分 为 4 个 区 间 ; 

G) 如 果 最 高 有 效 位 是 1,5 或 10, 将 该 区 间 等 宽 地 分 为 5 个 区 间 。 

这 种 方法 很 难说 有 比较 科学 的 依据 ,但 是 简便 易 行 ,可 以 作为 实践 的 参考 。 图 2. 18 展 
示 了 3-4-5 规则 的 一 个 例子 ,展示 了 对 一 个 属性 值 进行 自然 分 区 的 操作 过 程 。 


2.6.3 概念 层次 生成 


在 数据 仓库 中 ,数据 的 属性 有 时 是 以 层次 的 方式 表示 出 来 的 ,典型 的 具有 层次 关系 的 属 
性 是 地 理 位 置 相关 的 属性 ,如 国家 、 省 市 .街道 等 属性 。 这 些 概念 之 间 层 次 关系 十 分 重要 ， 
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1. 确定 数据 范围 -2000-4000 


2. 6000 个 不 同 的 值 :3 分 ee 


—2000~0 0~2000 2000~4000 


风 


3. 2000 个 不 同 的 值 : 4 分 


区 


—2000—1500 -1500 一 1000 -1000 一 500 -500-0 


-2000—1900 -1900—1800 -1800—1700 -1700—1600 -1600—1500 
图 2.18 3-4-5 规则 的 例子 : 对 属性 值 进行 自然 分 区 


也 被 用 于 许多 数据 仓库 的 操作 和 其 他 数据 挖掘 场景 如 关联 分 析 。 

概念 的 层次 一 般 是 由 用 户 或 专家 显 式 地 人 工 指 定 的 一 些 偏 序 关系 ,概念 的 层次 也 可 通 
过 系统 对 数据 的 分 析 自动 生成 。 

一 个 简单 的 自动 生成 概念 层次 的 方法 是 根据 不 同 的 属性 值 的 数量 来 判断 属性 的 概念 层 
次 ,具有 最 多 不 同属 性 值 的 属性 的 概念 层次 最 低 。 例 如 ,在 数据 中 有 3 个 不 同 的 国家 ,53 个 
不 同 的 省 份 ,2831 个 不 同 的 城市 ,203 453 条 不 同 的 街道 ,那么 可 以 推断 概念 层次 从 高 到 低 
依次 为 国家 、 省 份 ,城市 街道。 但 是 这 样 仅仅 依靠 数量 的 方法 过 于 武断 。 例 如 , 某 个 日 期 是 
星期 几 这 一 属性 比 某 个 日 期 是 哪个 月 这 个 属性 拥有 更 少 的 属性 值 (7 过 12) ,但 是 这 两 个 属性 
并 不 具有 严格 的 包含 关系 ,月 甚至 应 当 视 为 星期 的 上 层 属 性 。 文 献 L5] 对 概念 层次 和 概念 层 
次 的 自动 生成 给 出 了 一 些 方法 与 概述 。 


2.7 小 结 


数据 是 数据 对 象 及 其 属性 的 集合 。 属 性 值 是 对 一 个 属性 所 赋予 的 数值 或 符号 ,是 属性 
的 具体 化 。 数 据 可 分 为 记录 数据 、 图 数据 和 有 序数 据 等 类 别 。 属 性 可 分 为 名 称 型 属性 顺序 
型 属性 .间隔 型 属性 、 比 率 型 属性 ,不 同类 型 的 属性 可 支持 不 同 的 运算 集合 。 

高 质量 的 数据 挖掘 结果 离 不 开 高 质量 的 数据 来 源 ,为 了 让 后 续 的 数据 挖掘 可 以 更 高 质 
量 地 进行 ,可 以 对 数据 进行 一 些 处 理 和 变换 , 即 数 据 预 处 理 。 数 据 预 处 理 的 主要 任务 包括 数 
据 清洗 ,数据 集成 ,数据 转换 ,数据 归 约 和 数据 离散 化 等 。 

在 进行 数据 处 理 之 前 ,通常 希望 获得 对 数据 总 体 的 认识 。 这 就 需要 将 数据 描述 成 非常 
概要 和 可 以 理解 的 形式 。 描 述 数据 的 方法 包括 描述 数据 中 心 趋势 的 方法 如 均值 .中 位 数 , 描 
述 数据 的 分 散 程度 的 方法 如 方差 ,标准 差 , 以 及 数据 的 其 他 描述 方法 如 散 点 图 和 参数 化 方 
法 等 。 

很 少 能 从 现实 世界 中 获得 完美 的 数据 ,数据 缺失 和 数据 噪声 不 仅仅 影响 数据 质量 ,也 使 
得 一 些 算 法 遇 到 问题 ,这 就 需要 对 数据 进行 数据 清洗 ,这 就 意味 着 对 数据 中 的 缺失 值 进行 填 
补 , 以 及 对 数据 进行 平滑 ,以 减 小 随机 误差 和 离 群 点 的 影响 。 

当 将 不 同 来 源 的 数据 汇总 到 数据 仓库 中 时 就 会 面临 两 个 问题 ,不 同 来 源 的 数据 可 能 存 
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在 强 相关 性 ,而 且 它 们 的 形式 可 能 是 极为 不 同 的 。 数 据 集成 是 这 一 环节 的 主要 工作 ,这 一 环 
节 需 要 对 数据 的 元 余 性 进行 处 理 , 并 将 不 同形 式 的 数据 转换 为 同一 种 形式 。 

数据 仓库 可 能 存 有 海量 数据 ,在 全 部 数据 上 进行 复杂 的 数据 分 析 和 挖掘 工作 所 消耗 的 
时 间 和 空间 成 本 巨大 ,这 就 催生 了 对 数据 进行 归 约 的 需求 。 数 据 归 约 是 用 更 简化 的 方式 来 
表示 数据 集 ,使 得 简化 后 的 表示 可 以 用 较 少 的 数据 量 来 产生 与 挖 据 全 体 数据 类 似 的 效果 。 

计算 机 无 法 存储 和 处 理 无 限 精度 的 数据 ,而 有 些 算法 的 复杂 度 与 属性 取 值 的 数量 有 关 ， 
这 就 催生 了 将 数据 离散 化 的 需要 。 数 据 离散 化 是 对 数据 的 属性 值 进 行 的 预 处 理 , 它 将 属性 
值 划分 为 有 限 个 部 分 ,然后 使 用 这 个 部 分 的 标签 来 代替 原来 的 属性 值 。 
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在 第 2 章 学 习 了 数据 预 处 理 的 相关 知识 ,数据 在 进行 数据 集成 、 清 洗 、 归 约 等 数据 预 处 
理 操作 后 ,需要 将 数据 存 人 挖掘 信息 的 存储 载体 一 一 数据 仓库 中 。 目 前 企业 中 存在 越 来 越 
多 的 历史 数据 ,企业 处 理 历史 数 据 的 主要 方式 有 删除 历史 数据 .备份 历史 数据 ,数据 预 处 理 
后 存 人 数据 仓库 三 种 方式 ,其 中 存 人 数据 仓库 中 的 数据 可 以 作为 决策 支持 的 依据 。 日 益 重 
要 的 数据 挖掘 平台 可 以 提供 联机 分 析 处 理 (OLAP) .在 不 同 的 数据 粒度 层面 实现 多 维度 的 
数据 分 析 等 ,同时 数据 仓库 也 可 以 为 后 期 的 .联机 分 析 挖掘 (OLAM) 提 供 支持 。 本 章 将 系 
统 地 介绍 数据 仓库 的 基本 知识 。 

本 章 内 容 安 排 如 下 ,3.2 节 将 回顾 数据 库 的 基本 概念 ,该 部 分 内 容 有 助 于 深入 理解 数据 
仓库 的 概念 及 数据 库 与 数据 仓库 之 间 的 区 别 。3. 3 节 将 介绍 数据 仓库 的 基础 知识 ,其 中 包 
括 数据 仓库 的 概念 特点、 作用 ,同时 会 将 数据 仓库 与 数据 库 管理 系统 CDBMS ) 进 行 对 比 ,以 
进一步 的 加 深 对 数据 仓库 的 理解 。 数 据 仓 库 基于 多 维 的 数据 模型 ,这 种 模型 把 数据 看 成 一 
种 数据 立方 体 的 形式 。3. 4 节 将 讨论 如 何 进行 N 维 数据 建 模 ,以 及 数据 立方 体 的 概念 和 模 
型 。 在 此 基础 上 进一步 介绍 概念 分 层 ,以 及 在 多 个 抽象 层次 上 进行 数据 的 分 析 与 挖掘 。 本 
节 最 后 还 将 对 数据 仓库 上 重要 的 数据 操作 一 一 典型 的 OLAP 操作 进行 探讨 ,并 说 明 其 操作 
数据 立方 体 的 方式 。3. 5 节 首 先 介 绍 数据 仓库 的 视图 概念 .数据 仓库 设计 的 方法 和 步骤 , 然 
后 介绍 数据 仓库 的 体系 结构 以 及 每 一 层 的 原理 ,为 后 续 设 计数 据 仓 库 做 准备 。3. 6 节 将 讨 
论 实现 数据 仓库 的 方法 ,实现 是 指 有 效 计算 数据 立方 体 ,包括 采用 多 路 数组 聚集 算法 、 构 建 
数据 索引 、 高 效 的 OLAP 查询 步 又 等 内 容 。3.7 节 讨 论 从 数据 仓库 如 何 过 渡 到 数据 挖掘 ,这 
节 还 将 介绍 数据 仓库 的 应 用 ,然后 将 OLAP 与 联机 分 析 挖 掘进 行 对 比 ,最 后 将 介绍 OLAM 
典型 的 四 层 体系 结构 。 


3.2 数据 库 基 本 概念 回顾 


本 节 主 要 回顾 数据 库 的 基本 概念 ,由 此 可 以 更 加 深入 地 理解 数据 仓库 的 概念 及 数据 库 
与 数据 仓库 之 间 的 区 别 。 
在 3.2.1 节 将 简单 回顾 一 下 数据 库 的 相关 概念 ;3. 2. 2 节 简 单 回顾 数据 库 中 的 基本 概 
念 ,包括 库 表 .记录 ` 域 等 ;最 后 3. 2. 3 节 介绍 数据 库 管理 系统 的 概念 。 在 这 里 只 是 对 数据 库 
的 基本 概念 进行 简单 的 回顾 ,如 果 读 者 想 深入 了 解数 据 库 方面 的 相关 知识 ,可 查阅 有 关 
教材 。 
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3.2.1 数据 库 简 介 
为 了 更 好 地 理解 数据 库 ,首先 需要 了 解 一 下 关于 数据 的 概念 。 
1. 数据 


数据 是 数据 库 中 存储 的 基本 对 象 , 它 是 用 来 描述 事物 的 符号 记录 ,数据 可 以 为 数字 、 字 
符 串 日 期 等 类 型 ,它们 都 可 以 转换 成 相应 的 格式 从 而 存 人 计算 机 。 一 个 典型 的 数据 包括 数 
据 对 象 及 其 属性 。 


2. 数据 库 


所 谓 数据 库 是 指 以 一 种 结构 化 的 方式 存储 数据 的 文件 系统 。 

数据 库 具有 较 小 的 元 余 度 , 较 高 的 独立 性 和 易 扩 展 性 ,同时 可 以 被 多 个 用 户 访问 的 并 发 
性 ,数据 库 中 的 数据 可 以 长 期 存储 在 计算 机 内 ,因此 可 以 把 数据 库 理解 为 具有 相互 关联 关系 
的 数据 组 成 的 集合 。 

例如 ,日常 生活 中 为 了 记录 顾客 在 超市 里 的 购买 信息 ,通常 会 把 商品 购买 信息 记录 在 一 
个 账本 上 ,此 时 顾客 购买 商品 信息 便 相 当 于 数据 库 中 记录 的 数据 ,而 账本 自身 便 相 当 于 数 
据 库 。 
3.2.2 表 、 记 录 和 域 


数据 库 、 表 、 记 录 和 域 之 间 的 关系 是 ,数据 库 可 以 包含 多 张 表 ,一 张 表 中 包含 多 条 记录 ， 
一 条 记录 中 有 多 个 域 。 

表 是 描述 事物 的 数据 组 织 成 的 二 维 表 ;记录 是 指数 据 表 中 每 一 行 数据 ; 域 是 指数 据 表 中 
的 每 一 列 字段 ; 当 某 个 字段 值 在 表 中 具有 唯一 性 时 , 称 此 字段 为 主键 ,主键 可 以 用 来 唯一 地 
标识 记录 。 记 录 和 域 在 一 张 表 中 的 表现 形式 如 图 3.1 所 示 。 


Name Gender | Score 


lid | 
poi Te | a | so 
域 1 > | 小 王 女 - | 100 | 一 一 一 一 数据 
iioi ie aiie iah aih a 7 
11 3 1 小 李 男 95 | 
记录 == 全 | 


图 3.1 数据 库 中 的 域 .记录 和 数据 


3.2.3 数据 库 管 理 系统 
1. 数据 库 管理 系统 简介 


DBMS 是 为 用 户 提供 定义 、 建 立 、 维 护 数据 库 服 务 的 软件 ,同时 DBMS 也 为 用 户 提供 使 
用 ,操作 数据 库 的 功能 。DBMS 对 数据 库 进行 统一 管理 和 控制 ,其 目的 是 为 了 保证 数据 库 
的 安全 性 一致 性 和 完整 性 。 

目前 市 面 上 流行 的 商业 化 DBMS 主要 有 DB2、Oracle、MS SQL Server, MySQL 和 MS 
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Access 等 。 

虽然 Sybase Informix 等 著名 的 DBMS 已 经 退出 了 历史 舞台 ,但 是 这 些 曾 经 辉煌 的 
DBMS 都 曾 广 泛 应 用 在 很 多 大 中 型 企业 ,为 这 些 企业 提供 数据 管理 的 支持 。 目 前 在 数据 挖 
掘 中 为 了 解决 数据 集成 的 问题 ,对 于 这 些 历史 上 曾经 使 用 过 的 多 源 异 构 类 型 的 数据 也 要 加 
以 考虑 。 


2. DBMS 主要 功能 


(1) 数据 的 存储 、 检 索 和 更 新 。 

该 功能 可 以 完成 对 数据 的 存储 查询、 修改 等 操作 ,操作 数据 库 过程 中 使 用 最 频繁 的 便 
是 此 类 功能 。 此 类 操作 可 以 通过 使 用 结构 化 查询 语言 (SQL 语言 ) 加 以 实现 ,如 创建 增加 
(Create) .插入 (Insert) , 2 (Update) , 删除 (Delete) 功 能 的 语句 。 

(2) 事务 支持 。 

事务 可 以 理解 为 把 数据 库 的 一 系列 操作 看 成 一 个 整体 ,此 类 整体 要 么 整体 有 效 BE 
体 失效 。 事 务 的 主要 功能 是 为 了 保证 存在 于 一 个 事务 内 的 所 有 操作 被 执行 或 不 被 执行 。 

为 了 达到 上 述 事 务 的 功能 ,事务 需 具 有 原子 性 .一致 性 .隔离 性 .持久 性 的 特点 。 

简 而 言 之 ,所 谓 原子 性 是 指 多 个 对 数据 库 的 操作 可 以 看 作 一 个 不 可 分 割 的 原子 ;一 致 性 
是 指数 据 库 的 状态 从 一 个 一 致 的 状态 转变 到 另 一 个 一 致 的 状态 ;隔离 性 是 指 不 同 的 事务 操 
作 不 会 相互 影响 ;持久 性 是 指 事务 对 数据 库 的 改变 是 永久 性 的 。 

(3) 并 发 控制 。 

当 多 个 事务 并 发 地 执行 时 ,在 数据 库 中 就 会 产生 同时 读 取 或 修改 同一 数据 的 情况 。 若 
DBMS 不 支持 并 发 控制 , 则 会 导致 数据 不 一 致 性 问题 。 如 多 个 用 户 对 同一 个 数据 进行 更 新 
操作 ,并 发 控制 功能 则 会 保证 此 数据 的 一 致 性 。 

以 上 是 对 DBMS 的 三 个 主要 功能 的 简要 介绍 ,其 他 DBMS 功能 请 读者 详 见 专门 的 数据 
库 教 材 。 


3.3 数据 仓库 简介 


在 介绍 完 数据 库 的 基本 概念 后 ,引入 本 章 的 主题 一 一 数据 仓库 。 在 第 2 章 介 绍 了 数据 
预 处 理 的 相关 知识 ,数据 在 进行 数据 集成 清洗 、 归 约 等 数据 预 处 理 操 作 后 ,需要 把 数据 存放 
到 数据 仓库 中 。 

3. 3. 1 节 将 简 述 数据 仓库 的 特点 ,3. 3. 2 节 将 介绍 什么 是 数据 仓库 ,3. 3. 3 节 介绍 数据 
仓库 的 作用 ,3. 3.4 节 将 对 数据 仓库 与 DBMS 系统 进行 对 比 , 最 后 3. 3. 5 节 介绍 分 离 数据 仓 
库 的 原因 。 


3.3.1 数据 仓库 特点 


William H. Inmon 曾 给 出 了 数据 仓库 的 概括 性 定义 :“ 数 据 仓 库 是 一 个 面向 主题 的 、 集 
成 的 .时 变 的 , 非 易 失 的 数据 集合 ,支持 管理 部 门 的 决策 过 程 ”。 
数据 仓库 具有 面向 主题 的 (Subject-Oriented)、 集 成 的 (Integrated)、 时 变 的 (Time 
Variant) AEA KAY (Non-Volatile)4 个 关键 特点 。 下 面 详细 说 明 这 4 个 关键 特征 。 
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1. 面向 主题 的 


(1) 围绕 重要 的 课题 或 主题 ,如 顾客 .产品 和 销售 。 

(2) 着 眼 于 决策 者 的 数据 建 模 和 分 析 , 而 不 是 日 常 对 数据 的 操作 或 事务 处 理 。 

(3) 通过 删除 一 些 对 分 析 决 策 支持 没有 价值 的 数据 ,针对 一 个 特定 的 主题 为 分 析 决 策 
者 提供 简明 扼要 的 信息 呈现 方式 。 


2. 集成 的 


(1) 数据 仓库 的 建立 是 通过 集成 和 整合 多 个 不 同 的 异 构 数据 源 , 数 据 源 包括 关系 型 数 
据 库 .数据 文件 和 联机 事务 记录 等 。 

(2) 在 数据 仓库 的 建立 过 程 中 ,数据 清洗 和 数据 集成 技术 得 到 应 用 。 其 目的 是 为 了 保 
证 在 集成 不 同 数据 源 时 ,保证 数据 在 命名 规则 、 编 码 结构 和 属性 度量 等 方面 的 一 致 性 。 此 
外 , 当 数 据 被 放 入 数据 仓库 时 ,数据 往往 经 过 了 一 定 的 转换 。 


3. 时 变 的 


(1) 在 时 间 层 面 上 数据 仓库 中 的 数据 明显 地 比 操作 性 数据 库 中 的 数据 存储 时 间 要 长 ， 
其 表现 为 操作 性 数据 库 中 的 数据 往往 存储 的 是 当前 的 数据 ,而 数据 仓库 是 从 历史 数据 的 角 
度 提 供 数据 。 例 如 ,数据 仓库 中 存储 的 是 5 一 10 年 之 间 的 数据 ,而 操作 性 数据 库 中 存储 的 是 
当前 时 间 段 的 数据 。 

(2) 在 数据 仓库 中 ,关键 结构 都 显 式 或 者 隐 式 地 包含 时 间 元 素 。 与 之 不 同 的 是 ,在 操作 
性 数据 库 中 ,关键 结构 不 一 定 包含 时 间 元 素 。 


4. 非 易 失 的 


(1) 数据 仓库 物理 地 分 开 存放 数据 ,而 这 些 数据 都 来 源 于 操作 性 数据 库 , 最 极端 的 情况 
下 ,如果 数据 仓库 中 的 数据 被 损坏 了 ,还 可 以 通过 操作 性 数据 库 中 的 数据 信息 进行 恢复 。 

(2) 在 数据 仓库 中 ,通常 的 操作 行为 如 更 新 数据 不 会 发 生 。 此 外 ,数据 仓库 并 不 需要 事 
务 处 理 . 恢 复 、 并 发 控制 机 制 等 操作 。 数 据 仓库 中 只 有 两 种 类 型 的 数据 操作 方式 : 初始 化 装 
载 数据 和 访问 数据 。 


3.3.2 数据 仓库 概念 


数据 仓库 由 数据 仓库 之 父 比 尔 。 恩 门 在 1991 年 (建立 数据 仓库 ) 一 书 中 提出 ,并 被 广泛 
接受 。 数 据 仓 库 是 一 个 环境 ,通常 数据 仓库 把 来 源 不 同 的 数据 进行 集成 ,为 用 户 提供 决策 和 
分 析 的 平台 ,同时 提供 用 户 对 信息 处 理 的 支持 ,通常 而 言 数据 仓库 中 对 数据 的 操作 不 易 在 传 
统 的 数据 库 中 实现 。 

目前 ,关于 数据 仓库 的 定义 已 有 多 个 版 本 ,很 难 给 定 严格 的 定义 。 简 单 来 说 ,数据 仓库 
是 一 种 语义 一 致 性 的 数据 存储 ,数据 仓库 是 决策 支持 数据 模型 的 物理 实现 ,此 外 它 也 存储 了 
企业 用 于 决策 的 数据 。 

可 以 把 数据 仓库 看 作 一 种 体系 结构 ,数据 仓库 的 建立 是 通过 集成 多 个 异 构 数 据 源 进行 
构建 的 。 其 实数 据 仓库 也 是 一 种 数据 库 , 其 与 3. 2 节 介 绍 的 数据 库 有 很 大 的 相似 性 ,只 不 过 
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建立 数据 仓库 的 目的 是 通过 结构 化 或 者 专门 的 查询 得 到 数据 分 析 的 结果 并 且 为 企业 决策 提 
供 支持 。 


3.3.3 数据 仓库 作用 


通过 以 上 对 数据 仓库 的 简单 介绍 ,数据 仓库 的 主要 功能 和 作用 究竟 是 什么 呢 ? 在 商业 
决策 中 ,数据 仓库 的 作用 主要 表现 在 如 下 几 个 方面 : 

(1) 提高 客户 的 关注 度 。 

通过 分 析 客 户 的 购买 行为 信息 ,可 以 获得 客户 购买 商品 的 模式 和 购买 的 喜好 倾向 等 
信息 。 

(2) 微调 生产 策略 。 

通过 分 析 历 史 产 品 的 销售 情况 ,进而 重新 配置 产品 和 管理 产品 的 组 合 , 最 大 程度 地 提升 
利润 。 

G) 查找 利润 来 源 。 

通过 对 历史 产品 销售 数据 的 分 析 , 确 定 利润 的 来 源 ,进而 对 产品 的 销售 进行 指导 ,提升 
利润 。 

(4) 管理 客户 之 间 的 关系 。 

通过 管理 客户 之 间 的 关系 ,进而 对 公司 的 管理 和 运行 提供 指导 。 

此 外 ,存放 在 数据 仓库 中 的 数据 是 集成 多 个 异 构 数据 源 中 的 数据 信息 ,同时 企业 中 往往 
存在 各 种 各 样 不 同 的 数据 源 。 通 过 建立 数据 仓库 ,企业 可 以 有 效 方便 地 对 上 述 异 构 数 据 源 
进行 统一 管理 。 


3.3.4 数据 仓库 与 DBMS 对 比 


通过 数据 仓库 与 DBMS 的 对 比 ,可 以 更 加 深刻 地 理解 数据 仓库 的 作用 和 特点 。 为 了 进 
行 深入 的 对 比 ,首先 介绍 与 DBMS 和 数据 仓库 相关 的 OLTP 和 OLAP 操作 。 


1, OLTP 与 OLAP 


(1) OLTP。 典 型 的 关系 型 数据 库 的 主要 任务 是 联机 事务 处 理 和 查询 处 理 , 其 中 联机 处 
理 也 就 是 常 说 的 OLTP (On-Line Transaction Processing) ,OLTP 操作 包含 大 部 分 日 常 操 
ME ,例如 购买 .库存 .银行 .生产 .工资 .登记 ,注册 和 记 账 等 操作 。 

(2) OLAP。 数 据 仓库 的 主要 功能 是 实现 联机 分 析 处 理 OLAP (On-Line Analytical 
Processing) ,联机 分 析 处 理 的 主要 目的 是 为 了 数据 的 分 析 和 决策 。 


2. OLTP 和 OLAP 的 主要 区 别 


CL) 处 理 对 象 : OLTP 是 面向 顾客 的 ,为 顾客 提供 事务 处 理 和 查询 处 理 等 操作 ;OLAP 
是 面向 市 场 的 ,为 数据 分 析 人 员 提 供 数 据 分 析 的 支持 。 
(2) 数据 内 容 : OLTP 处 理 的 数据 是 当前 详细 的 数据 ;而 OLAP 处 理 的 数据 是 历史 的 
数据 ,合并 集成 统一 后 的 数据 。 
(3) 数据 库 的 设计 : OLTP 系统 是 采用 “实体 -关系 ”模型 ,也 就 是 ER 图 的 数据 模型 和 
面向 应 用 的 数据 库 设 计 ; 而 OLAP 往往 采用 星 型 模式 和 面向 主题 的 数据 库 设 计 , 其 中 星 型 
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模式 将 在 后 续 章节 中 进一步 说 明 。 

(4) 视图 : OLTP 关注 的 是 当前 和 本 地 的 数据 ,而 不 去 关注 历史 的 数据 信息 ;与 之 不 同 
的 是 ,OLAP 关注 的 数据 是 不 同 演变 和 不 同 数据 源 集 成 过 来 的 数据 信息 。 

(5) 访问 模式 : OLTP 中 访问 模式 包括 对 数据 的 更 新 、 查 询 等 操作 ,这 种 操作 需要 并 行 
化 的 控制 和 恢复 机 制 ,与 在 3. 2 节 中 提 到 的 DBMS 功能 一 致 ;而 OLAP 的 数据 访问 模式 主 
要 是 只 读 操 作 ,而 且 这 种 读 操 作 大 部 分 是 比较 复杂 的 查询 操作 。 


3. OLTP 与 OLAP 的 其 他 区 别 
OLTP 和 OLAP 的 主要 区 别 如 上 所 述 , 其 他 的 区 别 如 表 3. 1 所 示 。 


表 3.1 OLTP 5 OLAP 区 别 


区 分 点 OLTP OLAP 

用 户 IT 专业 人 员 数据 分 析 人 员 

功能 日 常 的 操作 决策 支持 

数据 库 设计 ER 图 和 面向 应 用 星 型 模式 和 面向 主题 
使 用 方式 重复 专门 的 分 析 处 理 
访问 模式 读 / 写 主要 为 读 

工作 单元 短 的 ,简单 的 事务 复杂 的 查询 

记录 数量 大 规模 海量 大 数据 

用 户 数 海量 小 规模 

数据 库 大 小 100MB 一 1GB 100GB~1TB 

度量 事务 吞吐 量 查询 吞吐 量 , 相 应 时 间 


3.3.5 分 离 数据 仓库 的 原因 


数据 库 里 面 可 以 放大 量 数据 ,那么 为 什么 还 需要 把 数据 重新 放 入 数据 仓库 中 呢 ? 原因 
主要 有 以 下 两 个 方面 : 


1. 提高 二 者 的 性 能 
DBMS 主要 设计 用 来 进行 OLTP, 如 建立 索引 ,进行 并 发 访问 的 控制 ,建立 恢复 机 制 等 。 


而 数据 仓库 主要 设计 用 来 进行 OLAP, 例 如 复杂 的 OLAP 查询 ,多 维 视图 的 数据 组 织 方式 ， 
数据 的 集成 。 如 果 使 用 DBMS 进行 OLAP 操作 ,可 能 会 大 大 降低 操作 的 效率 和 性 能 。 


2. 不 同 的 功能 和 数据 


决策 支持 需要 查询 历史 数据 ,而 事务 型 数据 库 不 维护 历史 的 数据 ,决策 支持 需要 整合 异 

构 数据 源 中 的 数据 。 此 外 ,存在 数据 仓库 里 面 的 数据 都 是 高 质量 的 数据 ,如 在 整合 不 同 的 异 

构 数据 源 时 ,存在 不 同 介质 中 的 数据 经 常 出 现 不 同 的 编码 方式 数据 格式 ,在 把 这 些 数据 放 

入 数据 仓库 之 前 ,需要 进行 数据 “清洗 ”等 数据 预 处 理工 作 , 才 能 把 数据 放 入 数据 仓库 中 。 相 
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比 之 下 ,事务 型 数据 库 需要 维护 的 只 是 原始 数据 ,而 且 在 对 数据 进行 操作 的 时 候 也 无 须 进行 
数据 的 预 处 理 。 

分 开 的 另外 一 个 原因 是 为 了 分 别提 高 数据 库 和 数据 仓库 的 性 能 。 由 于 数据 库 和 数据 仓 
库 分 别 具 有 不 同 的 功能 ,存储 的 数据 内 容 也 有 差异 ,因此 在 实际 应 用 中 需要 将 两 者 分 离 , 区 
别 对 待 。 但 是 需要 注意 的 是 ,目前 越 来 越 多 的 关系 型 数据 库 直 接 支持 OLAP 操作 ,也 许 随 
着 数据 库 的 发 展 ,OLAP 和 OLTP 系统 之 间 的 差异 会 越 来 越 小 。 


3.4 多 维 数据 模型 


3. 3 节 介绍 了 有 关 数 据 仓库 的 基本 知识 ,然而 数据 仓库 基于 高 维 的 数据 模型 ,这 种 模型 
把 数据 仓库 中 所 有 数据 抽象 成 一 种 数据 立方 体 的 形式 。 

本 节 将 介绍 如 何 对 N 维 数据 进行 建 模 。3. 4. 1 节 将 讨论 数据 立方 体 的 概念 。3. 4. 2 节 
将 介绍 概念 模型 ,也 就 是 多 维 数据 模型 ,包括 星 型 模式 、 雪 人 花 模 式 和 事实 星座 模式 等 。 为 了 
在 多 个 抽象 层 上 进行 数据 的 分 析 与 挖掘 ,3.4. 3 节 介绍 概念 分 层 的 基本 概念 。3. 4. 4 节 将 介 
绍 典型 的 OLAP 操作 ,OLAP 操作 是 指 操纵 数据 立方 体 的 方式 。 最 后 3. 4. 5 节 将 介绍 数据 
仓库 的 设计 与 实现 方法 。 


3.4.1 数据 立方 体 


数据 立方 体 是 指 从 多 维 的 角度 对 数据 进行 观察 和 建 模 。 

为 了 更 加 容易 理解 数据 立方 体 的 概念 ,首先 引入 一 个 例子 ,如 在 电子 商品 销售 (All 
Electonics) 的 数据 仓库 中 ,可 以 从 多 个 角度 看 待 和 建立 数据 模型 。 对 于 电子 商品 销售 数据 
仓库 ,可 以 从 商品 信息 、 销 售 时 间 等 维度 来 分 析 数 据 。 


1. 维 表 和 事实 表 


所 谓 维 是 分 析 和 看 待 数 据 的 角度 ,而 每 一 个 维度 都 可 以 有 一 个 与 之 对 应 关联 的 表 , 这 样 
的 表 称 为 维 表 , 维 表 中 是 一 系列 属性 集合 ,而 维 表 是 为 了 进一步 描述 维 。 在 商品 销售 数据 仓 
库 中 可 能 有 很 多 维度 的 表 , 如 商品 信息 维 表 可 以 包含 商品 名 称 、 商 品 品 牌 和 商品 类 型 等 属 
性 ,时 间 维 表 可 以 包含 天 、 星 期 和 月 份 等 属性 信息 。 

这 里 要 引入 一 个 “事实 "的 概念 。 所 谓 事实 是 数据 度量 的 ,如 在 上 述 商品 销售 的 数据 仓 
库 中 ,事实 可 以 是 销售 量 、 销 售 额 等 信息 ,事实 是 分 析 维 之 间 关 系 的 关键 。 事 实 表 中 包含 事 
实 的 名 称 或 者 度量 信息 ,以 及 相关 维度 的 编码 。3. 4. 2 节 将 介绍 概念 模型 ,届时 可 清楚 地 理 
解 维 表 、 事 实 表 以 及 二 者 之 间 的 关系 。 


2. 数据 立方 体 维度 


一 个 数据 仓库 中 ,所 谓 维 的 数量 是 指 从 多 少 个 角度 来 分 析 看 待 其 所 存储 的 数据 。 一 个 
包含 所 有 维 的 方 体 被 称 为 基础 方 体 , 它 是 组 成 整个 数据 立方 体 的 单元 ,不 包含 维 的 基础 方 体 
存放 在 最 高 层 , 称 作 顶 点 立方 体 , 它 包含 所 有 数据 的 汇总 信息 。 而 数据 立方 体 是 指 多 维 数据 
模型 方 体 的 集合 。 
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3. 多 维 分 析 


为 了 更 加 具体 地 理解 以 上 抽象 的 概念 ,以 电子 商品 (All Electonics) 销 售 数据 仓库 为 例 
说 明 数 据 立方 体 的 概念 。 这 个 数据 仓库 的 维度 、 维 表 和 事实 表 的 信息 如 表 3. 2 所 示 。 


表 3.2 电子 商品 销售 数据 仓库 的 维 表 和 事实 表 


time, item, branch, location 


8 


time(time_key day day_of_week month quarter year) item(item_key item_name brand 
aE 表 type supplier_type)branch(branch_key branch_name branch_type) location(location_key 


street city province_or_state country ) 


事实 表 (time_key item_key branch_key location_key dollars_sold units_sold location_key) 


(1) 首先 从 二 维 的 角度 观察 温哥华 (Vancouver) 的 电子 商品 销售 数据 。 如 表 3. 3 所 示 ， 
从 时 间 维 度 和 商品 类 型 维度 两 个 维度 进行 观察 。 表 3. 3 中 所 显示 的 事实 度量 是 指 销售 金额 
(单位 :美元 ) 。 
表 3.3 从 时 间 维度 和 商品 类 型 维度 观察 温哥华 的 电子 商品 销售 数据 


Location=" Vancouver" 


Item( 类 型 ) 
Time( 季度 ) = 
家 庭 娱乐 计算 机 安全 产品 电话 
Ql 605 825 400 302 
Q2 680 920 512 401 
Q3 781 1026 501 350 
Q4 824 1120 580 420 


C2) 从 时 间 ,商品 类 型 .供应 方 和 销售 地 4 个 维度 来 多 维度 地 观察 电子 商品 销售 的 数据 
仓库 ,其 中 事实 度量 为 销售 额 ( 单 位 : 美元 ) 。 因 为 显示 四 维 的 数据 比较 困难 ,所 以 把 4 个 维 
度 的 立方 体 映射 成 三 维 立方 体 的 序列 来 显示 ,如 图 3. 2 所 示 。 


时 间 ( 季 度 ) | ”地 域 供应 商 
Los Angeles 供应 商 A o 供应 商 B co 供应 商 C 2 
New York 
Vancouver 
Chicago = 
o | 
o3 | | | | 
© || | | 
al T Zam _ 
TEE 商品 (类 型) 
娱 机 ma 
乐 m 


图 3.2 从 时 间 、 商 品类 型 .销售 地 和 供应 方 4 个 维度 进行 多 维度 观察 的 电子 商品 销售 的 数据 仓库 
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(3) 时 间 (time) 、 商 品 (item) 地域 (location) 和 供应 方 (supplier) 形 成 的 数据 立方 体 方 格 如 
图 3.3 所 示 , 可 以 从 每 一 个 维度 对 上 述 数 据 进 行 汇总 和 分 析 。 放 在 底层 4-D 的 方 体 为 基础 方 
体 ,0- 了 D 方 体 为 所 有 维度 数据 信息 的 汇总 为 项 点 方 体 ,可 以 在 图 3.3 中 直观 地 得 出 结果 。 


all 


------------------ 0-D( 硕 点 ) 方 体 


图 3.3 ” 时间、 商品、 地 域 和 供应 方 维度 形成 的 数据 立方 体 的 方 格 


通过 上 述 分 析 ,数据 立方 体 不 仅 可 以 进行 二 维 、 三 维 的 数据 分 析 , 并 且 可 以 进行 高 维 的 
数据 分 析 。 其 中 数据 立方 体 中 每 个 单元 存放 一 个 聚集 值 , 该 值 对 应 于 多 维 数据 空间 中 的 一 
个 数据 点 。 

此 外 ,每 个 属性 都 可 能 存在 层次 化 的 概念 分 布 ,允许 在 多 个 抽象 层 进行 数据 分 析 。 例 如 
对 location 进行 概念 分 层 , 可 以 把 销售 的 城市 聚集 成 国家 。 关 于 概念 分 层 ,将 在 3. 4. 3 节 详 
细 讨 论 。 由 于 数据 立方 体 提供 对 预先 计算 的 汇总 数据 进行 快速 访问 ,因此 适合 联机 数据 分 
析 和 数据 挖掘 。 


3.4.2 概念 模型 


在 3.4. 1 节 中 讨论 了 维 表 、 事 实 表 的 概念 和 多 维 分 析 的 过 程 , 其 中 维 表 和 事实 表 在 数据 
立方 体 中 起 到 了 关键 的 作用 。 但 是 维 表 、 事 实 表 与 普通 的 数据 库 库 表 有 什么 区 别 ? 二 者 之 
间 的 关系 是 什么 呢 ? 

首先 ,通常 数据 库 的 设计 与 实现 中 常用 到 的 是 “实体 -关系 (ER)" 数 据 模型 ,数据 库 中 表 
之 间 的 联系 由 ER 图 中 的 信息 进行 表示 ,这 种 模型 适合 OLTP 操作 ;而 数据 仓库 中 的 数据 模 
型 是 多 维 数据 模型 ,多维 数据 模型 更 适合 OLAP 操作 。 根 据 数 据 仓 库 中 不 同 数据 维度 之 间 
的 关系 ,数据 仓库 中 常见 的 数据 模型 有 如 下 几 种 类 型 : 星 型 模式 、 雪 花 模 式 和 事实 星座 模 
式 。 这 三 种 数据 模型 的 区 别 主 要 是 维 表 和 事实 表 之 间 的 关系 。 


1. 星 型 模式 


星 型 模式 是 数据 仓库 中 最 常见 的 数据 模型 。 这 种 数据 模型 中 ,事实 表 处 于 中 心 位 置 , 事 
实 表 和 其 他 维 表 相 关联 。 为 了 更 加 形象 地 说 明星 型 模型 的 概念 ,图 3. 4 描述 了 电子 商品 销 
售 数据 仓库 中 的 星 型 模式 数据 模型 。 
图 3.4 所 示 的 数据 模型 从 时 间 (Time) .商品 (Item) .部 门 (Branch) 和 地 域 (Location)4 
个 维度 描绘 了 数据 仓库 中 的 数据 。 这 4 个 维度 的 信息 分 别 由 4 张 维 表 来 描述 , 维 表 中 描述 
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了 各 个 维度 的 属性 信息 。 而 销售 数据 (Sales) 是 事实 表 , 事 实 表 中 包含 销售 金额 .单位 销售 
金额 和 平均 销售 金额 等 事实 数据 信息 。 另 外 ,此 事实 表 中 通过 4 个 编码 字段 (time_key、 
item_key, branch_key 和 location_key) 与 维 表 进行 关联 。 从 图 3.4 中 可 以 看 出 , 星 型 模型 的 
一 个 显著 特点 是 所 有 维 表 都 直接 连接 到 事实 表 。 


Time 
PK time key 
day item name 
brand 
day of the_week Sales Fact Table type 
mont r 
quarter supplier_type 
year 
time_key Location 
item_key — 


branch_key PK |location_key 
location_key Emag 

dollars_sold street 

units_sold city 

avg_sales province_or_state 
country 


branch_name 
branch_type 


图 3.4 星 型 模式 


2. 雪花 模式 


雪花 模式 是 星 型 模式 的 进一步 改进 ,其 中 把 一 些 维 表 细 分 得 到 一 系列 更 低层 次 的 维 表 ， 
最 终 形成 的 多 个 层次 化 的 维 表 就 像 雪 花 一 样 , 故 称 为 雪花 模式 。 雪 花 模 式 的 一 个 显著 特点 
是 一 个 或 多 个 维 表 没 有 直接 连接 到 事实 表 上 ,而 是 通过 其 他 维 表 连 接 到 事实 表 上 。 

电子 商品 销售 数据 仓库 的 雪花 模式 表示 如 图 3. 5 所 示 ,通过 对 比 图 3.4 和 图 3. 5, 可 以 
看 出 星 型 模式 和 雪花 模式 的 主要 区 别 在 于 维 表 , 星 型 模式 中 Item 维 表 和 Location 维 表 进 
一 步 细 分 ,Item 维 表 细 分 成 Item 维 表 和 Supplier 维 表 ,Location 维 表 细 分 成 Location 维 表 
和 City 维 表 。 

通过 对 比 星 型 模式 和 雪花 模式 ,可 以 看 出 : 雪花 模式 更 加 规范 ,解决 了 部 分 宛 余数 据 信 
息 ,能 够 有 效 地 减少 数据 量 ,但 是 在 雪花 模式 条 件 下 ,查询 功能 需要 更 多 个 表 之 间 的 连接 操 
作 来 实现 , 相 比 星 型 模式 ,雪花 模式 的 执行 效率 会 比较 低 。 

相 比 之 下 , 星 型 模式 由 于 最 大 限度 地 减少 数据 存储 量 以 及 集成 了 较 小 的 维 表 ,因此 其 查 
询 性 能 较 好 ,在 数据 元 余 可 以 接受 的 范围 条 件 下 常常 采用 星 型 模式 ,以 提高 查询 和 维度 分 析 
的 速度 。 所 以 在 实际 项 目 中 ,需要 根据 数据 情况 和 项 目 要 求 确定 采用 哪 一 种 数据 模型 。 


3. 事实 星座 模式 


数据 模型 中 如 果 出 现 多 个 事实 表 共 享 一 个 或 多 个 维 表 , 此 类 数据 模型 称 为 事实 星座 模 
式 。 事 实 星座 可 以 看 作 多 个 星 型 模式 的 集合 。 该 模式 的 显著 条 件 是 模式 中 含有 多 个 事实 表 
并 且 事实 表 共 享 维 表 。 

电子 商品 销售 数据 仓库 的 事实 星座 模式 表示 如 图 3. 6 所 示 。 在 该 模型 中 ,一 共有 两 个 
事实 表 Sales 和 Shipping 事实 表 ,Sales 事实 表 与 前 面 星 型 模式 中 的 事实 表 一 致 ,新 增加 的 
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Supplier 
PK | supplier_key 
supplier_type 
> Sales Fact Table 4 
time_key 
Ttem 
day —=|PK |item key 
day_of_the_week FK1 | time_key 
month FK2 | item_key item_name 
quarter FK3 | branch_key brand 
year dollars_sold type 
units_sold FK1 | supplier key 
avg_sales 
Branch 一 一 FK4 | location_key 
PK | branch key | 
branch_name City salon 
branch_type PK | city_key PK [location key 
| 一 -一 
city street 
province_or_state FK1 | city_key 
country 
图 3.5 雪花 模式 


Shipping 事实 表 含 有 (item_key \time_key .shipper_key .from_location ,to_location) 分 别 与 
Location 维 表 „Shipper 维 表 .Item 维 表 和 Time 维 表 相连 ,其 中 Shipping 事实 表 和 Sales 事 
实 表 分 别 共 享 Location 维 表 ,Item 维 表 和 Time 维 表 。 


ltem 
=| PK |item key 上 -一 
Sales Fact Table item_name m 
brand Shipper 
type =] ae | 
supplier_type PK | shipper_key 
FK1 | time_key hi 
FK2 | item_key Ti suppor name: 
FK3 | branch_key ae shipper_type 
FK4 | location_key | PK | time_key 
dollars_sold 
units_sold day Shipeini 
avg_sales day_of_the_week BEE 
month 
quarter 
Branch year ~ FK3 | item_key 
a FKS | time_key 
— PK | branch_key p FK4 |shipper_key 
Location m~ FK2 | from_location 
branch_name PK |location_ke, FK1 |to_location 
branch _type dollars_cost 
street units_shipped 
city 
province_or_state 
country 


图 3.6 事实 星座 模式 


如 图 3. 6 所 示 ,事实 星座 模式 可 以 对 应 多 个 分 析 和 挖掘 的 主题 。 现 实 中 ,企业 数据 仓库 
的 应 用 内 容 比较 复杂 ,常常 需要 挖掘 和 分 析 多 个 主题 相关 的 内 容 , 所 以 在 这 种 情况 下 通常 使 
用 事实 星座 模式 。 

在 介绍 完 数据 仓库 的 数据 模型 后 ,需要 明确 上 述 三 种 模型 的 应 用 范围 。 首 先 需 要 明确 
有 关 数 据 集 市 的 基本 概念 。 一 个 典型 的 数据 集 市 受 限 于 选 定 的 挖掘 和 分 析 主 题 ,而 且 其 数 
据 往 往 是 企业 数据 的 子 集 。 例 如 电子 商品 销售 数据 ,把 主题 限定 于 顾客 、 商 品 和 销售 。 数 据 
集 市 中 的 数据 仅仅 是 企业 数据 的 一 部 分 或 者 是 企业 数据 的 汇总 性 数据 。 

如 表 3.4 所 示 , 对 数据 仓库 和 数据 集 市 的 相关 方面 进行 了 一 个 简单 对 比 。 


表 3.4 数据 仓库 和 数据 集 市 对 比 


数据 仓库 数据 集 市 
主题 整个 组 织 选 定 的 主题 
范围 企业 范围 部 门 范围 
概念 模型 事实 星座 模式 星 型 或 雪花 模式 


3.4.3 概念 分 层 


所 谓 概念 分 层 是 指定 义 了 一 个 映射 序列 ,这 个 映射 序列 把 底层 概念 映射 成 较 高 层 的 概 
念 ,更 一 般 化 的 抽象 概念 。 对 于 给 定 的 某 一 维 ,往往 不 仅 有 一 层 的 概念 层 , 进 行 概念 分 层 的 
主要 目的 是 为 了 在 多 个 层次 上 对 数据 进行 挖掘 和 分 析 。 

在 上 例 中 的 location 维 ,location 的 值 中 城市 一 列 包括 多 伦 多 ,温哥华 等 ,可 以 把 城市 信 
息 映 射 到 国家 ,如 多 伦 多 和 温哥华 城市 映射 到 加 拿 大 ;国家 信息 可 以 映射 到 洲 , 如 加 拿 大 映 
射 到 北美 洲 , 依 此 类 推 ,这 便 是 概念 分 层 , 如 图 3. 7 所 示 。 


所 有 ------------------- 所 有 
= 欧洲 北美 洲 
a 
oe 德国 mex 墨 西 可 
2 
城市 一 -一 一 一 法 兰 克 福 。 柏林 温哥华 多 伦 多 


图 3.7 location 维 的 概念 分 层 


按照 概念 分 层 的 思想 ,可 将 维度 Product、Location 和 Time 等 进行 如 图 3. 8 所 示 的 概 
念 分 层 , 在 分 层 表示 的 概念 中 Product<Category< Industry 和 Office<City< Country < 
Region 满足 全 序 的 关系 ,Day 二 {Month 二 Quarter, Week} < Year 满足 偏 序 关 系 , 这 种 属性 
的 全 序 或 者 偏 序 的 概念 分 层 称 作 模 式 分 层 。 
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Region Year 
Industry 


Country mA 
Category 一 


Month Week 


City 
Product | he a 


Office Day 
图 3.8 location 维 的 概念 分 层 


3.4.4 典型 OLAP 操作 


如 何 利 用 概念 分 层 进一步 挖掘 数据 中 存在 的 知识 呢 ? 为 了 解决 这 个 问题 ,首先 需要 引 
入 一 些 典 型 的 OLAP 操作 ,包括 上 卷 .下 销 、 切 片 . 切 块 和 旋转 ,通过 这 些 操作 可 以 很 清晰 地 
体会 到 概念 分 层 是 如 何 得 到 应 用 的 。 

OLAP 是 由 关系 数据 库 之 父 E. F. Codd 于 1993 年 提出 的 一 种 动态 数据 分 析 模 型 ， 
OLAP 操作 对 来 自 多 源 异 构 的 经 过 集成 和 预 处 理 后 的 数据 采用 多 维 结构 的 数据 模型 进行 
访问 和 操作 。 为 了 更 加 形象 地 理解 OLAP 操作 ,通过 存储 对 电子 商品 销售 的 数据 仓库 进行 
演示 ,其 中 数据 立方 体 包含 地 域 (Location) 时间 (CTime) 和 商品 (Item) 等 维度 信息 ,地 域 维 
度 按照 城市 进行 聚集 ,时 间 维 度 按照 季度 进行 聚集 ,商品 维度 按照 商品 的 类 型 进行 聚集 ,所 
显示 的 数值 是 销售 额 (单位 :美元 ) 。 下 述 几 种 OLAP 操作 用 图 3. 9 进行 了 示例 。 


1, 上 卷 (roll-up) 


通过 在 一 个 维度 上 的 概念 分 层 向 上 攀升 或 者 通过 维 归 约 ( 即 维度 信息 由 细 粒 度 向 粗 粒 
度 归 约 ) 的 方式 在 数据 立方 体 中 进行 聚集 ,其 本 质 是 数据 聚集 到 概念 的 上 一 层 , 进 而 得 到 汇 
总 结果 。 如 可 以 对 数据 立方 体 进行 上 卷 操 作 ,统计 一 年 中 不 同城 市 .不 同 商品 的 销售 情况 。 
上 卷 操 作 可 以 通过 消除 一 个 或 者 多 个 维度 ,进而 从 更 宏观 的 角度 分 析 数 据 。 

如 图 3. 9 所 示 , 上 卷 操 作 是 按照 location 维 的 概念 分 层 ,由 city 层 上 卷 到 country 层 , 导 
致 的 结果 是 数据 立方 体 按照 country 进行 分 组 ,而 不 是 city。 上 卷 操作 往往 会 合并 一 个 或 者 
多 个 维度 。 

2. 下 钼 (drill-down) 

下 钻 是 上 卷 的 反 向 操作 ,从 概念 分 层 的 上 层 到 下 层 或 者 是 将 粗 粒 度 的 维度 信息 扩展 成 
多 个 细 粒 度 的 维度 信息 。 如 可 以 把 季度 这 一 维度 进行 下 钻 ,进而 得 到 不 同月 份 在 不 同城 市 
不 同 商品 的 销售 情况 。 此 外 ,下 钻 操作 还 包含 在 原 有 的 数据 立方 体 的 条 件 下 添加 维度 。 


如 图 3.9 所 示 ,按照 time 维 的 概念 分 层 , 由 季度 概念 层 下 钻 到 月 份 概念 层 ,导致 的 结果 
是 数据 立方 体 按照 月 份 进行 分 组 ,而 不 是 季度 。 


3. 切片 和 切 块 (slice-dice) 


切片 操作 是 指 在 给 定 的 数据 立方 体 中 选择 一 个 维度 进行 分 析 , 如 图 3. 9 所 示 的 数据 立 
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图 3.9 多 维 数据 模型 中 典型 的 OLAP 操作 
方 体 可 以 通过 切片 操作 得 到 第 一 季度 中 不 同城 市 .不 同 商品 的 销售 情况 。 
切 块 操作 是 指 通 过 在 两 个 或 者 多 个 维度 上 进行 划分 ,从 而 得 到 子 数据 立方 体 。 在 如 
图 3.9 所 示 的 数据 立方 体 中 ,通过 切 块 操作 选择 第 二 季度 和 第 三 季度 在 温哥华 和 多 伦 多 ， 


计算 机 和 家 庭 娱 乐 商品 的 销售 情况 。 
4. 旋转 (pivot) 


通过 对 数据 立方 体 进行 不 同 角度 的 旋转 ,可 以 获取 不 同 视角 所 呈现 的 数据 立方 体 。 

如 图 3.9 所 示 ,将 item 和 location 在 一 个 2D 层面 上 进行 旋转 操作 。 同 理 , 可 以 在 3D 
层面 上 进行 旋转 操作 等 。 

5. 其 他 OLAP 操作 


fiat (Drill Cross) 是 指 操作 中 涉及 多 个 事实 表 中 的 数据 。 钻 透 (Drill-Through) 是 指 通 
过 执行 SQL 的 语句 形式 , 透 过 数据 立方 体 的 最 底层 ,最 终 操 作 后 台 的 关系 表 。 通 常情 况 下 
此 类 操作 只 有 部 分 OLAP 系统 支持 。 

经 过 上 面 关于 数据 仓库 中 OLAP 的 介绍 ,读者 可 能 会 联想 到 统计 数据 仓库 的 概念 , 因 
H OLAP 中 上 卷 .下 钻 等 操作 也 存在 于 数据 库 统计 工作 中 。 但 是 它们 的 侧重 点 不 同 , 数 据 
仓库 侧重 于 商务 上 的 数据 分 析 和 决策 支持 的 应 用 ,而 数据 库 统计 工作 侧重 于 社会 经 济 方面 
的 应 用 。OLAP 操作 的 具体 实现 可 参考 本 章 有 关 参 考 文献 。 关 于 OLAP 操作 的 应 用 程序 
BEA CAPD , 详 见 本 章 最 后 的 参考 文献 。 


3.4.5 星 型 网 络 的 查询 模型 


在 介绍 完 有 关 OLAP 操作 的 基本 概念 后 ,可 将 此 类 操作 应 用 于 多 维 数据 库 查 询 。 多 维 
数据 查询 可 以 基于 星 型 网 络 模 型 。 所 谓 星 型 网 络 模型 是 指 由 一 个 中 心 点 和 多 个 射线 组 成 ， 
其 中 每 一 个 射线 代表 一 个 概念 分 层 , 在 射线 上 根据 该 维度 给 概念 分 层 的 信息 确定 OLAP 操 
作 或 数据 挖掘 的 粒度 ,将 射线 上 对 应 的 多 个 概念 层次 连接 的 折线 称 之 为 数据 立方 体 的 指纹 
(Footprint) 。 

电子 产品 销售 数据 仓库 的 一 个 星 型 网 络 模型 如 图 3. 10 所 示 。 在 这 个 星 型 网 络 模型 中 ， 
可 以 执行 上 述 OLAP 操作 ,如 time 层 ; 可 以 沿 着 time 维 进行 下 钻 , 由 quarter 到 month; ak 
者 对 location 维 进行 上 卷 , 由 city 到 country。 用 较 高 层 抽 象 值 替换 较 低 层 抽象 值 可 以 实现 
数据 泛 化 ,用 较 低 层 抽象 替换 高 层 抽象 实现 数据 特殊 化 。 
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图 3.10 应 用 于 查询 的 星 网 模型 
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3.5 数据 仓库 结构 


数据 仓库 是 一 种 多 维度 的 数据 模型 ,通过 对 数据 立方 体 进行 OLAP 操作 ,可 以 从 多 个 
层次 和 多 个 维度 实现 分 析 和 挖掘 工作 ,进而 获取 隐藏 在 数据 内 部 的 有 用 知识 。 

本 节 将 重点 介绍 数据 仓库 的 体系 结构 。3. 5. 1 节 首 先 介绍 数据 仓库 的 视图 、 设 计 方 法 
和 实现 步骤 ;3. 5. 2 节 介绍 数据 仓库 的 多 维 体系 结构 以 及 每 一 层 的 原理 ,为 设计 和 实现 一 个 
完整 的 数据 仓库 做 好 准备 。 


3.5.1 数据 仓库 设计 
1. 数据 仓库 设计 视图 


一 个 软件 项 目的 研发 过 程 是 以 需求 分 析 为 起 点 开展 的 。 在 进行 项 目 需求 分 析 时 , 需 按 
照 不 同 的 分 析 对 象 和 视图 进行 分 析 , 如 在 构建 商务 网 站 时 ,往往 需要 从 顾客 .管理 者 和 销售 
人 员 等 相关 的 视图 开始 进行 分 析 。 

同样 ,在 设计 数据 仓库 时 ,首先 要 确定 设计 视图 ,它们 分 别 是 自 顶 向 下 视图 、 数 据 源 视 
图 、 数 据 仓 库 视图 、 商 务 查询 视图 ,这 些 视图 综合 在 一 起 便 形成 一 个 完整 的 系统 框架 。 不 同 
的 视图 对 应 着 不 同 的 实现 对 象 , 如 自 顶 向 下 的 视图 对 应 着 自 顶 向 下 驱动 的 对 象 ,数据 仓库 视 
图 则 对 应 数据 仓库 驱动 的 对 象 。 下 面 简单 介绍 上 述 4 种 视图 的 基本 概念 。 

(1) 自 顶 向 下 视图 。 这 种 视图 从 全 局 宏观 角度 设计 数据 仓库 。 

(2) 数据 源 视 图 。 这 种 视图 揭示 了 被 操作 系统 获取 ,存储 和 管理 的 数据 信息 。 

(3) 数据 仓库 视图 。 这 种 视图 包含 了 多 个 事实 表 和 多 个 维 表 。 

(4) 商务 查询 视图 。 这 种 视图 是 从 终端 用 户 的 角度 观察 在 数据 仓库 中 的 数据 。 

介绍 了 数据 仓库 的 设计 视图 后 ,下 面 介绍 有 关 设 计 和 实现 数据 仓库 的 主要 方法 。 


2. 数据 仓库 设计 方法 


从 不 同 的 角度 分 析 ,数据 仓库 设计 有 不 同 的 方法 。 

(1) 常见 的 方法 有 自 项 向 下 、 自 底 向 上 和 上 述 两 种 方法 的 混合 方法 。 

自 顶 向 下 是 指 对 数据 仓库 的 设计 从 总 体 的 设计 和 规划 开始 ,一 直 延 续 到 低层 的 设计 和 
实现 工作 。 这 种 方法 比较 适用 于 对 于 被 控 气 对象 的 应 用 需求 具有 明确 把 握 和 掌控 的 情况 。 
由 于 具有 对 挖掘 对 象 和 目标 的 总 体 了 解 ,这 种 方法 的 优点 是 可 以 从 总 体 上 规划 数据 仓库 。 

自 底 向 上 是 指数 据 仓 库 的 设计 从 实验 系统 和 原型 系统 开始 ,这 种 方法 在 开发 的 早期 比 
较 实用 ,因为 这 种 方法 的 主要 优点 在 于 设计 速度 快 。 

混合 方法 是 指 结 合 了 自 项 向 下 和 自 底 向 上 各 自 的 优势 , 既 可 以 自 顶 向 下 从 全 局 的 角度 
规划 设计 数据 仓库 ,也 可 以 自 底 向 上 进行 快速 的 数据 仓库 设计 。 

为 了 对 比 自 项 向 下 和 自 底 向 上 两 种 方法 的 区 别 , 引 入 数据 集 市 的 概念 ,所 谓 数据 集 市 是 
指 企业 范围 内 数据 的 一 个 子 集 ,数据 集 市 针对 特定 的 用 户 群 。 图 3. 11 显示 的 是 自 顶 向 下 的 
设计 方法 ,图 3. 12 显示 的 是 自 底 向 上 的 设计 方法 。 

通过 图 3. 11 和 图 3. 12 ,可 以 总 结 出 上 述 两 种 设计 方法 的 优点 和 缺点 ,如 表 3.5 所 示 。 
在 设计 数据 仓库 的 时 候 , 根 据 需求 选择 适宜 的 数据 仓库 设计 和 实现 方法 。 
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图 3.11 自 顶 向 下 的 设计 方法 
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图 3.12 自 底 向 上 的 设计 方法 
表 3.5 自 底 向 上 和 自 顶 向 下 设计 方法 优 缺 点 
1. 一 次 性 地 完成 数据 重 构 工 作 1. 数据 集 市 直接 依赖 于 数据 仓库 的 可 用 性 
自 顶 向 下 2. 最 小 化 数据 元 余 度 和 不 一 致 性 | 2. 投资 成 本 不 易 实 现 短期 回报 ,因为 一 次 性 

3. 存储 详细 的 历史 数据 建立 企业 数据 仓库 成 本 较 高 


1. 快速 投资 回报 收益 
自 底 向 上 2. 设计 方案 可 伸缩 性 强 
3. 对 不 同 部 门 的 应 用 容易 复制 


_ 


. 对 每 个 数据 集 市 需要 数据 重 构 


2. 存在 一 定 的 元 余 及 不 一 致 性 


. 限制 在 一 个 主题 区 域 


(2) 从 软件 工程 角度 分 析 数 据 仓库 设计 方法 。 

在 一 个 典型 的 软件 工程 项 目 中 ,软件 项 目的 开发 方法 有 瀑布 式 和 螺旋 式 两 种 主流 方法 ， 
同 理 可 将 这 两 种 方法 应 用 到 数据 仓库 的 设计 中 。 在 这 里 首先 回顾 一 下 瀑布 式 方法 和 螺旋 式 
方法 的 主要 思想 。 

瀑布 式 方法 : 瀑布 式 是 软件 行业 最 早 普遍 采用 的 开发 方法 ,此 类 方法 通过 将 项 目 划 分 
为 多 个 有 限 阶段 并 按 顺 序 逐 步 完 成 各 阶段 的 开发 任务 。 简 而 言 之 ,瀑布 式 是 指 在 每 次 进行 
下 一 步 设计 时 ,每 一 步 都 进行 系统 结构 的 详细 分 析 与 设计 。 

螺旋 式 方法 : 螺旋 式 是 一 种 演化 软件 开发 过 程 模型 ,以 演化 的 开发 方式 为 中 心 ,每 一 个 
阶段 使 用 的 方法 是 瀑布 式 方法 ,此 方法 会 快速 产生 功能 渐变 的 系统 ,新 功能 产生 的 周期 
很 短 。 

3. 数据 仓库 设计 步骤 


通常 情况 下 设计 数据 仓库 的 步骤 如 下 。 

(1) 针对 相应 的 商业 业务 流程 进行 建 模 , 如 下 订单 的 过 程 . 开 发 票 的 过 程 等 。 

(2) 确定 商业 业务 流程 中 被 处 理 的 信息 粒度 。 信 息 粒 度 的 确定 是 由 数据 仓库 设计 人 员 
决定 的 ,如 信息 粒度 可 以 是 一 天 的 交易 记录 等 。 

(3) 选择 用 于 每 一 个 事实 表 记 录 的 维度 ,维度 的 选择 往往 是 时 间 、 地 域 等 维度 信息 。 

(4) 选择 用 于 度量 每 一 个 事实 表 记 录 的 度量 信息 。 如 商品 销售 额 信息 。 


3.5.2 多 层 体 系 结构 
1. 数据 仓库 三 层 体系 结构 


数据 仓库 通常 采用 三 层 体 系 结构 .如 图 3. 13 所 示 , 从 最 底层 到 最 高 层 依次 为 数据 仓库 、 
OLAP 服务 器 和 前 端 工具 等 。 


OLAP 服 务 器 


元 数据 监控 和 整合 


1 
| 
操作 性 数据 库 数据 仓库 | 
1 
1 
| 
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数据 集 市 
底层 : 数据 存储 中 间 层 : OLAP 引 擎 ”顶层 : 前 端 工具 
图 3.13 数据 仓库 三 层 体系 结构 


。54 。 


(1) 最 底层 是 数据 仓库 。 数 据 仓库 的 主要 作用 是 用 于 存储 数据 ,数据 来 源 是 通过 集成 
操作 性 数据 库 和 其 他 异 构 数 据 源 中 的 数据 ,然后 经 过 数据 清洗 抽取、 转换 和 集成 ,最 后 把 数 
据 放 入 数据 仓库 中 。 

(2) 中 间 层 是 OLAP 服务 器 。OLAP 服务 器 是 专门 用 于 实现 多 维 数据 挖掘 和 分 析 的 
服务 器 。OLAP 处 理 的 数据 仓库 操作 类 型 或 提供 服务 ,包括 关系 OLAP(ROLAP) IRS .多 
HE OLAPCMOLAP) 服 务 .混合 OLAP(HOLAP) 服 务 和 特殊 的 SQL 服务 。 

(3) 最 顶层 是 前 端 工具 。 可 以 通过 中 间 层 的 分 析 , 输 出 数据 的 报表 信息 、 分 析 结 果 , 并 
在 中 间 层 的 基础 上 对 数据 进行 数据 挖掘 与 分 析 操 作 。 


2. 元 数据 


在 图 3. 13 中 ,中 间 层 中 的 元 数据 是 关于 数据 的 知识 或 信息 ,元 数据 是 用 于 定义 数据 仓 
库 对 象 的 数据 或 信息 。 

元 数据 功能 : 元 数据 能 提供 基于 用 户 的 信息 ,如 记录 数据 项 的 业务 描述 信息 的 元 数据 
能 帮助 用 户 使 用 数据 。 元 数据 能 支持 系统 对 数据 的 管理 和 维护 ,如 关于 数据 项 存储 方法 的 
元 数据 能 支持 系统 以 最 有 效 的 方式 访问 数据 。 

元 数据 通常 记录 如 下 几 类 关于 数据 仓库 的 信息 : 

(1) 描述 存储 在 数据 仓库 中 的 数据 。 

(2) 定义 要 进入 数据 仓库 中 的 数据 和 从 数据 仓库 中 产生 的 数据 。 

(3) 记录 根据 业务 事件 发 生 而 随 之 进行 的 数据 抽取 清洗、 转换 和 集成 的 调度 计划 。 

(4) 记录 数据 一 致 性 的 要 求 和 检测 结果 。 

(5) 记录 评估 数据 质量 的 方法 和 相关 结果 。 


3.6 数据 仓库 的 功能 


在 3.5 节 讨 论 了 数据 仓库 这 种 多 维 的 数据 模型 及 其 三 层 体 系 结构 和 设计 方法 。 那 么 应 
该 如 何 实现 数据 仓库 的 功能 呢 ? 所 谓 实现 是 指 如 何 操作 数据 立方 体 ,进而 完成 数据 的 查询 
等 操作 。 

数据 仓库 存储 的 数据 规模 具有 海量 性 。 如 何 高 效 地 进行 OLAP 操作 变 成 了 一 个 非常 
关键 的 问题 。 本 节 将 讨论 数据 仓库 中 高 效 的 数据 立方 体 计算 的 实现 方法 。 在 3. 6. 1 节 , 学 
习 数 据 立 方 体 的 有 效 计算 ,其 中 包括 数据 立方 体 的 计算 .数据 立方 体 的 物化 .优化 数据 立方 
体 计算 策略 .多 路 数组 聚集 方法 计算 数据 立方 体 等 主要 内 容 , 在 3. 6. 2 节 , 将 介绍 索引 
OLAP 数据 ,学 习 如 何 进一步 地 提高 数据 立方 体操 作 的 速度 。 最 后 在 3. 6. 3 节 ,将 学 习 对 数 
据 立方 体 进行 OLAP 查询 处 理 的 步 又 。 


3.6.1 数据 立方 体 的 有 效 计算 
1. 数据 立方 体 个 数 计算 


为 了 更 加 清楚 地 理解 数据 立方 体 ,在 这 里 引进 一 个 例子 : 对 电子 商品 销售 构建 一 个 数 
据 立 方 体 ,分 别 有 city year 和 item 三 个 维度 ,事实 信息 为 sales_in_dollars, 如 图 3. 14 所 
PES 


示 。 可 以 在 这 个 数据 立方 体 中 按照 city、year 查询 销售 数据 ,也 可 以 单独 按照 city 或 者 item 


查询 销售 数据 。 
通过 图 3. 14 明显 看 出 共 8 个 立方 体 ,分 别 是 (city,item, year), (city, item), (citys 
year) ,(item, year) (city) (item)、(year) 和 () ,其 中 () 表 示 分 组 为 空 ,不 进行 任何 分 组 。 


( ) 
~------+---- 顶点 
(city) AY (year) iD 
(city,item) i (item,year) = es 


(city,item,year) 一---------- 基础 
图 3.14 电子 商品 销售 数据 立方 体 


在 3.4.1 节 曾经 提 到 过 ,一 个 包含 所 有 维 的 方 体 被 称 为 基础 方 体 , 它 是 组 成 整个 立方 体 
的 单元 。 不 包含 维 的 基础 方 体 是 存放 在 最 高 层 ,被 称 作 顶 端 立方 体 , 是 最 高 泛 化 的 方 体 , 对 
应 图 3. 14 的 立方 体 ,顶点 立方 体 是 指 分 组 为 空 的 方 体 。 顶 点 方 体 是 所 有 数据 的 汇总 ,基础 
方 体 是 指 同时 包含 city item 和 year 维 的 方 体 , 也 就 是 (city,'item,year) ,该 方 体 返回 city, 
item 和 year 维度 组 合 的 销售 数据 ,其 中 1-D 方 体 、2-D 方 体 也 在 图 3. 14 中 进行 了 标示 。 

通过 上 面 分 析 , 在 没有 概念 分 层 的 条 件 下 ,对 于 一 个 维度 为 N 的 数据 立方 体 ,数据 立方 
体 的 个 数 为 2* ,但 是 在 实际 情况 中 往往 存在 概念 分 层 的 情况 ,如 year 概念 分 层 为 day < 
month<quarter<<year。 在 这 种 情况 下 ,可 能 的 数据 立方 体 的 个 数 计算 公式 如 下 


T= Try (3-1) 

其 中 工 ;是 与 维度 i 相关 联 的 概念 层 数 ,T 是 方 体 的 总 数 。 

在 DBMS 中 可 以 用 SQL 语言 对 数据 库 中 的 表 进 行 定义 和 操作 , 同 理 也 可 以 用 类 似 于 
SQL 对 上 述 数 据 立 方 体 进行 定义 和 计算 。 

数据 立方 体 定义 语句 : 

define cube sales[item, city, year]: sum (sales in dollars) 

数据 立方 体 计算 语句 : 

compute cube sales 

对 于 数据 仓库 中 的 操作 而 言 ,可 以 将 数据 仓库 的 操作 符 cube by 引入 到 SQL 语句 
(cube by 由 Gray 在 1996 年 提出 ): 


SELECT item, city, year, SUM (amount) 
FROM SALES 
CUBE BY item, city, year 


2. 物化 数据 立方 体 


在 式 (3-1) 中 ,如 果 数 据 立方 体 year 维度 的 概念 分 层 为 day<month<quarter<year, Ml] 
year 维 有 4 个 概念 层 , 加 上 虚拟 层 , 共 5 个 概念 层 。 同 理 , 假 设 数据 立方 体 共 10 个 维度 , 且 
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每 一 个 维度 和 time 维度 一 样 都 有 5 个 概念 层 , 则 所 有 数据 立方 体 的 个 数 为 5" 。 这 是 一 个 
非常 大 的 数量 级 。 如 果 预 计算 并 物化 所 有 的 立方 体 并 不 是 十 分 现实 ,所 以 需要 讨论 如 何 物 
化 相关 的 数据 立方 体 。 

数据 立方 体 的 物化 共有 三 种 方式 : 完全 物化 .部 分 物化 和 不 物化 。 三 者 的 根本 区 别 是 
预先 计算 数据 立方 体 个 数 的 策略 差异 。 

(1) 完全 物化 是 指 预先 计算 出 所 有 的 数据 立方 体 ,但 是 这 样 做 需要 大 量 的 存储 空间 来 
存储 已 经 物化 的 数据 立方 体 。 

(2) 不 物化 是 指 不 提前 物化 任何 的 数据 立方 体 ,查询 时 实时 计算 相关 的 数据 立方 体 ,这 
种 策略 会 导致 系统 的 响应 时 间 过 长 。 

(3) 部 分 物化 是 指 选择 部 分 需要 计算 的 数据 立方 体 进行 物化 ,部 分 物化 既 能 满足 部 分 
用 户 对 于 数据 立方 体 查询 的 高 响应 时 间 ,又 不 需要 像 完 全 物化 过 程 中 所 需要 的 大 量 的 存储 
空间 ,所 以 说 部 分 物化 是 完全 物化 和 不 物化 的 一 种 折 中 方案 。 

选择 合适 物化 方 体 的 方式 , 需 综合 分 析 服 务 器 的 查询 负担 、 查 询 的 频率 访问 开销 、 数 据 
库 的 设计 (如 索引 的 产生 和 选择 ) 等 信息 。 现 在 比较 流行 的 做 法 是 可 以 计算 冰山 立方 体 ,所 
谓 冰山 立方 体 存放 聚集 值 大 于 或 者 小 于 某 一 闵 值 的 立方 体 单元 的 数据 立方 体 。 


3. 数据 立方 体 计 算 优化 策略 


通过 上 面 对 数 据 立 方 体 知识 的 学 习 , 存 在 多 种 计算 数据 立方 体 的 方法 ,下 面 是 数据 立方 
体 有 效 计 算 的 三 种 优化 技术 。 

CL) 为 了 对 维 属 性 进行 重新 排序 和 聚集 相同 的 元 组 ,常常 使 用 排序 、 散 列 和 分 组 的 
THE 

(2) 分 组 操作 在 前 期 子 聚 集 的 基础 上 进行 ,前 期 的 子 聚 集 可 以 看 作 是 部 分 的 分 组 。 

G) 从 前 期 计算 过 的 子孙 聚集 的 结果 汇总 成 需要 计算 的 聚集 结果 ,而 不 是 重新 从 事实 
表 开 始 , 重 新 进行 聚集 结果 的 计算 。 

需要 说 明 的 是 , 当 存 在 多 个 子 数据 立方 体 时 ,选择 最 小 的 子 数据 立方 体 进行 聚集 。 如 计 
算 某 个 部 门 的 销售 数据 立方 体 时 ,先前 已 经 知道 (branch,year) 方 体 和 (branch,item) 方 体 ， 
若 已 知 不 同 的 商品 数 大 于 不 同 的 年 份 ,那么 明显 使 用 (branch,year) 方 体 的 计算 更 加 有 效 ， 
效率 更 高 。 


4. 多 路 数组 聚集 


多 路 数组 聚集 的 数据 结构 是 多 维 数组 ,主要 用 于 计算 完全 的 数据 立方 体 。 多 路 数组 聚 
集 算法 的 主要 思想 体现 在 如 下 三 个 方面 : 

(1) 分 割 数组 变 成 块 存储 。 把 数组 中 的 数据 按照 划分 分 成 更 小 的 块 ,每 一 块 都 作为 一 
个 对 象 存在 于 磁盘 中 。 

(2) 为 了 压缩 稀 玻 矩阵 ,常常 采用 块 内 搜索 基于 chunkId 十 offset 信息 的 策略 ,chunkId 
是 指 块 的 标记 Id,offset 是 指数 据 单元 在 块 中 的 偏 移 量 。 

(3) 通过 多 路 数组 聚集 的 方法 ,在 计算 数据 立方 体 的 聚集 时 ,可 以 优化 数据 单元 的 访问 
次 序 ,减少 重复 访问 同一 数据 单元 的 次 数 , 从 而 减少 内 存 的 访问 和 存储 空间 的 开销 。 

下 面 从 一 个 实际 例子 探讨 如 何 采用 多 路 数组 聚集 技术 完成 计算 和 如 何 确定 数据 立方 体 
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计算 的 有 效 次 序 。 


一 个 包含 ABC 三 维 的 数组 ,此 例子 中 该 数组 被 划分 为 64 块 。 如 


维 被 分 为 四 等 分 区 ao ,ai,az,as; 同 样 ,B 维 被 
分 为 四 等 分 区 bos bis bys bs ; C 维 被 分 为 四 等 
分 区 co ,ci,cs ,cs, 对 于 维 A、B 和 C 的 基数 分 
别 是 40,400 和 4000, 所 以 对 于 ABC 而 言 , 它 
们 每 一 部 分 的 大 小 分 别 是 10、100 和 1000。 数 
据 立方 体 如 图 3. 15 所 示 , 且 每 一 块 方 体 按照 
1 一 64 进行 编号 。 

首先 计算 BC 方 体 。 采 用 的 方式 是 通过 扫 
描 1 一 4 块 , 也 就 是 aboco, arbocos azboco， 
as boco 块 , 最 后 在 BC 面 进 行 聚集 形成 boco 一 
块 。 同 理 , 为 了 计算 BC Hi bico ,需要 扫描 5 一 
9 块 进行 聚集 。 按 照 如 此 步骤 ,为 了 计算 BC 


图 3. 15 所 示 , 其 中 A 
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图 3.15 数据 立方 体 


方 体 ,需要 依次 按照 编号 1 一 64 的 次 序 扫 描 ABC 中 所 有 的 方 体 ,如 图 3. 16 所 示 。 


* 


agbo abo abo asbo | 


图 3.16 多 路 计算 BC, AB, AC Ji% 


这 里 会 产生 有 一 个 疑问 ? 为 了 计算 BC 方 体 ,需要 扫描 所 有 的 64 个 数据 块 ;为 了 计算 
AB、AC 方 体 ,还 需要 重新 扫描 方 体 ,有 没有 办 法 可 以 避免 重复 扫描 方 体 呢 ?这 也 是 多 路 数 
组 聚集 思想 所 在 。 在 该 例子 中 ,在 扫描 第 一 块 的 时 候 , 也 就 是 abc 块 ,同时 计算 和 ag bo co 
相关 的 所 有 2D 方 体 , 也 就 是 在 AB、.AC、BC 方 体 中 聚集 aobo、aoco、boco 块 。 多 路 计算 的 过 


程 如 图 3. 16 所 示 。 
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在 多 路 数组 聚集 思想 中 提 到 过 优化 访问 单元 的 次 序 , 如 何 优化 数据 单元 的 访问 次 序 以 
及 获得 优化 的 效果 。 假 设 维度 ABYC 的 基数 大 小 分 别 为 40.400.4000 ,那么 AB 平面 大 小 
H 40 400=16 000,BC 平 面 大 小 为 400 X 4000=1 600 000, AC 平面 大 小 为 40 X 4000= 
160 000, KHER BC>AC>AB, 

(1) 扫描 次 序 为 1 一 64 

通过 扫描 1 一 4 块 , 可 以 聚集 BC 面 中 的 bo co ,但 是 需要 扫描 ABC 中 13 块 才能 聚集 AC 
中 ac 块 , 也 就 是 扫描 ABC 中 的 1.5.9、13 块 ,需要 扫描 ABC 中 49 块 ,也 就 是 1、17、33、49 
块 才 能 聚集 AB 中 的 abo 块 。 发 现 计 算 AB 需要 扫描 的 数据 单元 的 数量 最 多 ,所 以 为 了 避 
免 将 多 个 方 体 放 入 内 存 , 在 内 存 中 保存 所 有 2-D 平面 需要 最 小 内 存 为 40X400(AB 平面 ) 十 
40 X 1000( AC 平面 一 行 ) 十 100X1000(BC 平面 一 块 ) 王 156 000。 之 所 以 需要 AB 平 面 而 只 
需要 AC 平面 一 行 ,BC 平面 一 块 ,是 因为 多 路 计算 时 ,在 计算 完 AB 平面 恰好 计算 完 AC 平 
面 一 行 ,BC 平面 一 块 。 扫 描 和 聚集 过 程 如 图 3. 17 所 示 。 
AC 


女 * * * 


图 3.17 按照 1 一 64 方 块 次 序 扫描 


(2) 扫描 次 序 为 1.17.33.49.5、.21.37.53 等 

这 种 扫描 次 序 首先 扫描 BC 平面 ,然后 是 AC 平面 ,最 后 在 AB 平面 上 聚集 。 按 照 上 述 
的 分 析 方 法 ,所 需要 的 最 小 内 存 容量 为 400X4000 十 40X1000 十 10X100==1 641 000, 

可 以 通过 两 个 扫描 次 序 对 比 发 现 (2) 中 扫描 次 序 所 需要 的 最 小 内 存 为 (1) 中 扫描 次 序 的 
10 倍 多 。 类 似 的 ,也 可 以 计算 1-D 方 体 和 0-D 方 体 所 需要 的 最 小 内 存 需 求 量 , 经 过 计算 比 
较 内 存 分 配 的 策略 ,可 以 得 到 该 实例 中 数据 立方 体 计算 的 最 佳 次 序 为 1 一 64。 

多 路 数组 聚集 算法 可 以 完成 多 路 计算 并 且 可 以 优化 选择 方 体 的 次 序 , 但 是 本 算法 也 存 
在 一 定 的 局 限 性 ,主要 表现 在 如 下 两 个 方面 : 

(1) 该 算法 在 数据 立方 体 维度 比较 小 时 有 效 , 如 果 维 数 比较 大 或 者 数据 稀疏 时 ,多 路 数 
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组 聚集 方法 则 不 适用 。 
(2) 对 于 高 维 的 数据 可 以 采用 从 底 向 上 的 计算 方法 或 者 冰山 立方 体 的 计算 方法 ,读者 
如 果 想 深入 学 习 这 方面 的 知识 ,可 以 自行 查询 相关 知识 。 


3.6.2 索引 OLAP 数据 


为 了 提高 数据 立方 体 的 搜索 和 处 理 的 速度 ,建立 索引 是 最 佳 的 方式 ,目前 主流 的 对 
OLAP 数据 建立 索引 的 方式 有 两 种 : 位 图 索引 和 链接 索引 ,下 面 详细 介绍 一 下 位 图 索引 。 

位 图 索引 的 构建 过 程 有 如 下 关键 点 : 

(1) 位 图 索引 是 建立 在 特定 数据 列 (字段 ) 上 的 索引 。 

(2) 在 需要 建立 索引 的 列 (字段 ) 中 ,每 一 列 中 的 数据 都 对 应 位 图 索引 表 中 的 一 个 位 向 
量 , 因 为 位 向 量 之 间 的 操作 是 位 元 运算 ,大 大 减少 了 处 理 时 间 。 

(3) 位 图 索引 表 中 数据 的 长 度 是 根据 在 基础 表 中 需要 建立 索引 列 中 有 多 个 不 同 的 
数值 。 

(4) 如 果 在 数据 表 中 给 定 行 中 属性 值 为 V, 则 在 该 位 图 索引 表 中 对 应 行 中 表示 该 值 的 
位 置 为 1, 其 余 位 置 为 0。 

(5) 位 图 索引 不 适用 于 基数 为 较 大 值 域 的 数据 表 。 

表 3.6 表示 客户 的 地 域 和 销售 类 型 的 数据 信息 ,Cust 表示 客户 的 标记 ID, Region 表示 
客户 所 处 的 地 域 ,Type 表示 客户 的 销售 类 型 。 下 面 需 要 分 别 为 Region 和 Type 列 建立 位 
图 索引 表 。 

表 3.6 客户 的 地 域 和 销售 类 型 数据 信息 


Cust Region Type 
Cl Asia Retail 
C2 Europe Dealer 
C3 Asia Dealer 
C4 America Retail 
C5 Europe Dealer 


Region 建立 位 图 索引 表 的 方法 : 首先 Region 共有 三 个 不 同 的 值 , 故 位 图 索引 表 中 有 三 
列 分 别 表示 Asia, Europe Fil American ,其 中 需要 RecID 表示 对 应 的 列 号 ,如 此 按照 在 数据 
表 中 给 定 行 中 Region 的 值 , 则 在 该 位 图 索引 表 中 的 对 应 行 中 表示 该 值 的 位 置 为 1, 其 余 位 
置 为 0, 便 可 以 为 Region 建立 位 图 索引 表 , 如 表 3.7 所 示 。 
表 3.7 Region 建立 的 位 图 索引 


RecID Asia Europe America 
T 1 0 0 
2 0 1 0 
3 1 0 0 
4 0 0 1 
5 0 Į 0 


。 60 。 


按照 建立 Region 位 图 索引 的 方式 , 同 理 也 可 以 为 Type 建立 位 图 索引 表 , 如 表 3. 8 
所 示 。 


表 3.8 Type 建立 的 位 图 索引 


RecID Retail Dealer 
1 1 0 
2 0 1 
3 0 1 
4 1 0 
5 0 1 


3.6.3 OLAP 查询 的 有 效 处 理 


物化 数据 立方 体 和 建立 OLAP 索引 结构 都 是 为 了 提高 查询 数据 立方 体 的 速度 ,查询 处 
理 一 般 按照 如 下 几 个 步骤 依次 进行 ， 

(1) 确定 哪些 操作 将 执行 在 可 用 的 数据 立方 体 上 。 在 这 个 过 程 中 ,需要 将 查询 中 的 上 
卷 和 下 钻 等 操作 转化 成 对 应 的 SQL 或 者 OLAP 操作 ,如 切片 操作 对 应 于 数据 立方 体 中 的 
选择 和 投影 操作 。 

(2) 确定 相关 操作 应 用 于 哪些 物化 的 数据 立方 体 ,通过 评估 物化 立方 体 的 开销 ,选择 最 
小 计算 开销 的 方 体 。 

(3) 探索 使 用 哪 一 种 索引 的 结构 ,是 采用 位 图 索引 还 是 链接 索引 。 其 次 通过 评估 数据 
的 稀 朴 程度 ,建立 稠密 矩阵 还 是 稀 玻 矩阵 ,从 而 提升 存储 的 利用 率 。 


3.7 从 数据 仓库 到 数据 挖掘 


在 3.6 节 学 习 了 数据 仓库 的 实现 ,所 谓 实现 是 指 对 数据 立方 体 的 计算 、 聚 集 、 优 化 。 通 
过 以 上 的 学 习 , 设 计 和 建立 数据 仓库 并 完成 对 数据 立方 体 的 操作 。 

本 节 将 从 数据 仓库 过 渡 到 数据 挖掘 ,目的 是 为 了 给 后 续 章 节 内 容 做 铺垫 。 在 3.7. 1 节 
介绍 数据 仓库 的 应 用 领域 ;在 3.7. 2 节 讨 论 从 OLAP 到 OLAM 的 过 渡 ,并 在 最 后 简要 介绍 
OLAM 的 体系 结构 。 


3.7.1 数据 仓库 应 用 


目前 ,数据 仓库 已 经 广泛 应 用 到 了 各 个 领域 ,如 金融 、 银 行 、 电 子 商 务 等 行业 领域 的 企 
业 , 数 据 仓库 可 以 为 企业 提供 数据 分 析 和 决策 支持 。 

数据 仓库 的 应 用 是 一 个 逐步 发 展 的 过 程 。 起 初 数 据 仓 库 只 是 支持 普通 的 查询 操作 , 随 
后 数据 仓库 可 以 汇总 数据 并 以 可 视 化 的 方式 反馈 给 用 户 ,然后 通过 对 数据 仓库 进行 OLAP 
操作 等 多 维 分 析 , 可 以 完成 部 分 数据 决策 。 发 展 到 目前 ,可 以 通过 使 用 数据 挖掘 的 方法 在 数 
据 仓库 发 现 有 用 的 知识 ,进而 实现 决策 支持 。 

目前 市 面 上 有 各 种 各 样 数据 仓库 的 应 用 ,进行 分 类 和 归纳 ,一 共有 三 种 数据 仓库 的 应 
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用 : 信息 处 理 、 分 析 处 理 和 数据 挖掘 。 下 面 分 别 详 述 这 三 种 应 用 。 
1. 信息 处 理 


支持 数据 查询 ,基础 的 统计 分 析 , 并 且 可 以 通过 使 用 交 又 表 、 表 、 图 表 和 图 进行 数据 
报告 。 


2. 分 析 处 理 


分 析 处 理应 用 主要 包含 数据 仓库 多 维 的 数据 分 析 , 同 时 支持 OLAP 的 操作 ,如 切片 和 
切 块 , 下 钻 和 旋转 等 操作 。 相 比 信息 处 理 而 言 ,分 析 处 理应 用 支持 高 维 数据 分 析 。 


3. 数据 挖掘 


可 以 从 隐藏 的 模式 中 发 现 知 识 ,支持 关联 分 析 、 建 立 分 析 模 型 .执行 分 类 和 预测 ,并 且 通 
过 可 视 化 的 方法 呈现 挖掘 后 的 结果 。 


4. 三 种 应 用 的 区 别 与 联系 


数据 立方 体 的 三 种 类 型 应 用 既 有 区 别 也 有 联系 。 信 息 处 理 、 分 析 处 理 与 数据 挖掘 的 关 
系 和 区 别 主要 表现 在 如 下 三 个 方面 : 

(1) 信息 处 理 的 侧重 点 是 查询 ,通过 查询 数据 发 现 有 用 的 知识 。 但 是 信息 处 理 只 是 直 
接 反应 数据 库 中 的 数据 信息 ,不 包含 数据 中 隐藏 的 规律 或 者 知识 。 

(2) 分 析 处 理 的 侧重 点 是 OLAP 操作 ,OLAP 的 作用 主要 是 通过 数据 的 汇总 和 比较 进 
而 简化 数据 分 析 , 分 析 处 理 支持 表示 了 数据 仓库 中 数据 的 一 般 描述 ,数据 挖掘 所 包含 的 内 容 
远 远 高 于 分 析 处 理 中 所 包含 的 信息 。 

(3) 数据 挖掘 是 发 现 隐藏 在 数据 中 的 知识 和 信息 ,常见 的 数据 挖掘 方法 有 关联 规则 方 
法 ,如 用 于 商品 的 销售 搭配 建议 ;分 类 和 预测 方法 ,如 判断 一 个 用 户 更 喜欢 哪 类 商品 ; 聚 类 方 
法 ,如 对 客户 群体 的 划分 等 。 

通过 上 述 对 比 ,数据 挖掘 比 OLAP 的 操作 要 复杂 很 多 ,而 且 数 据 挖掘 所 发 现 的 知识 往 
WEERA ,并且 这 些 知 识 不 能 通过 OLAP 操作 实现 。 数 据 挖掘 发 现 的 知识 和 模式 是 后 续 章 
节 重点 要 介绍 的 内 容 , 在 此 不 做 深入 探讨 。 需 要 注意 的 是 ,经 过 信息 处 理 和 分 析 , 也 可 以 获 
得 一 些 知 识 , 这 些 知识 也 可 以 指导 实际 工作 进行 一 定 的 决策 。 


3.7.2 从 OLAP 到 OLAM 


OLAM(On-Line Analytical Mining 联机 分 析 挖 掘 ) 把 数据 挖掘 与 OLAP 结合 起 来 ,可 
以 在 高 维 数据 库 中 挖掘 知识 。 


1. 联机 分 析 挖 掘 的 原因 


CL) 在 数据 仓库 中 的 数据 一 般 而 言 是 质量 较 高 的 数据 。 数 据 仓库 中 的 数据 是 经 过 了 数 
据 清洗 、 集 成 和 一 致 性 处 理 后 的 数据 。 在 这 种 情况 下 ,数据 仓库 不 仅 支 持 OLAP, 还 是 数据 
挖掘 工作 的 高 质量 数据 源 。 需 要 注意 的 是 ,数据 挖掘 中 的 方法 也 可 以 用 于 数据 预 处 理 中 ,如 
可 以 使 用 分 类 预测 算法 填充 数据 中 的 缺失 值 。 
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(2) 数据 仓库 中 可 利用 的 数据 信息 处 理 结构 。 全面 的 数据 访问 .处 理 和 分 析 工 具 已 经 
在 数据 仓库 中 建立 ,其 中 包括 ODBC .OLEDB、Web 服务 访问 接口 .服务 机 制 .报表 和 OLAP 
分 析 工 具 。 充 分 利用 这 些 工具 可 极 大 地 简化 OLAM 的 操作 。 

(3) 基于 OLAP 的 探索 性 数据 分 析 。 通 过 对 数据 立方 体 的 下 钻 、 切 片 . 旋 转 等 OLAP 
操作 ,同时 将 结果 和 可 视 化 工具 联系 在 一 起 ,将 极 大 地 增强 探索 性 数据 挖掘 的 能 力 。 

(4) 在 线 的 数据 挖掘 功能 选择 。 用 户 可 能 不 知道 应 该 挖掘 什么 知识 ,通过 整合 和 转换 
多 个 数据 挖掘 的 功能 、 算 法 和 任务 ,可 以 为 用 户 选 择期 望 的 数据 挖掘 功能 。 

简 而 言 之 ,数据 仓库 提供 了 干净 的 数据 、 数 据 处 理工 具 , 并 且 可 以 通过 OLAP 进行 探索 
性 数据 分 析 , 这 些 都 为 数据 挖掘 工作 奠定 了 基础 。 


2. OLAM 架构 


OLAM 主要 由 4 层 组 成 : 数据 存储 层 、 多 维 数据 库 (MDDB) 层 .OLAP/OLAM 层 和 用 
户 接口 层 , 如 图 3. 18 所 示 。 下 面 分 别 详 述 各 个 层次 的 功能 : 


— 控 所 结果 ‘i [lnl 
| 


| 用 户 图 形 化 接口 4] 
第 三 层 
OLAM 引 擎 OLAP 引 擎 OLAP/OLAM 
i 
ZO 
NS => nae 
多 维 数据 库 一 [aa 多 维 数据 库 
SG AS 
人 清洗 和 集成 | 。 数据 库 API | a 
数据 清洗 。 — 数据 存储 
woes 7 | 数据 仓库 


图 3.18 OLAM 实现 机 制 框图 


(1) 数据 存储 层 。 数 据 存储 层 包 括 数据 库 和 通过 数据 清洗 、 集 成 等 操作 后 的 数据 仓库 ， 
主要 的 功能 是 数据 的 存储 ,此 处 提供 数据 库 的 API 供 多 维 数据 库 层 调用 。 

(2) 多 维 数据 库 层 。 包 括 多 维 数据 库 和 用 于 描述 数据 库 信 息 的 元 数据 ,同时 提供 数据 
立方 体 的 API 供 OLAP/OLAM 调用 。 

(3) OLAP/OLAM 层 。 进 行 在 线 分 析 处 理 和 在 线 数据 挖掘 ,进而 发 现 数据 中 的 知识 ， 
同时 为 用 户 接口 层 提供 图 形 用 户 界面 的 接口 。 

(4) 用 户 接口 层 。 通 过 OLAP/OLAM 层 的 图 形 化 接口 ,为 用 户 提供 挖掘 结果 的 查询 
并 以 可 视 化 的 方式 显示 数据 挖掘 后 的 结果 。 
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3.8 小 结 


数据 库 是 指 以 一 种 结构 化 的 方式 存储 数据 ,具有 较 小 的 元 余 度 , 较 高 的 独立 性 和 易 扩 展 
性 ,同时 可 以 被 多 个 用 户 共享 ,数据 库 中 的 数据 可 以 长 期 地 存储 在 计算 机 内 。 数 据 库 、 表 、 记 
录 和 域 ( 字 段 ) 之 间 的 关系 是 数据 库 可 以 包含 多 张 表 , 一 张 表 中 包含 多 条 记录 ,一 条 记录 中 有 
多 个 域 (字段 ) 。 数 据 库 管理 系统 (DBMS) 是 为 用 户 提供 了 定义 、 建 立 .维护 数据 库 服 务 的 软 
件 , 同 时 DBMS 提供 数据 的 存储 、 检 索 和 更 新 .支持 事务 操作 .并 发 访问 控制 等 功能 。 

数据 仓库 是 一 种 语义 一 致 性 的 数据 存储 , 它 是 决策 数据 模型 的 物理 实现 。 数 据 仓 库 有 
面向 主题 的 (Subject-Oriented)、 集 成 的 (Integrated)、 时 变 的 (Time Variant) 和 非 易 失 的 
(Non-Volatile)4 个 关键 特点 。 数 据 库 的 OLTP 操作 和 数据 仓库 的 OLAP 操作 的 主要 区 别 
表现 在 面向 的 对 象 ,数据 内 容 .数据 库 的 设计 、 视 图 和 访问 模式 5 个 方面 。 实 际 应 用 中 ,分 离 
数据 仓库 的 主要 原因 是 提高 数据 仓库 和 DBMS 各 自 的 性 能 。 数 据 仓 库 是 基于 多 维 的 数据 
立方 体 模型 ,数据 立方 体 是 指 从 多 维 的 角度 对 数据 进行 观察 和 建 模 。 此 外 ,这 种 模型 采用 星 

所 谓 概 念 分 层 是 指定 义 了 一 个 映射 序列 ,在 这 个 映射 序列 把 底层 的 概念 映射 成 较 高 层 
的 抽象 概念 ,更 一 般 化 的 概念 。 进 行 概念 分 层 的 主要 目的 是 为 了 在 多 个 层次 上 对 数据 进行 
分 析 和 挖掘 。 典 型 的 OLAP 操作 包括 上 卷 . 下 钻 .切片 和 切 块 .旋转 等 操作 。 

数据 仓库 设计 包括 自 顶 向 下 、 自 底 向 上 和 混合 式 方 法 。 数 据 仓库 通常 采用 三 层 体系 结 
构 ,包括 底层 的 数据 存储 .中 间 层 的 OLAP 引擎 和 顶层 的 前 端 工具 。 底 层 通常 是 关系 型 数 
据 库 , 中 间 层 是 OLAP 服务 器 ,顶层 是 常见 的 查询 或 者 报表 等 可 视 化 工具 。 

元 数据 是 关于 数据 的 知识 或 信息 ,是 用 于 定义 数据 仓库 对 象 的 数据 。 数 据 立方 体 物 化 
方式 可 根据 元 数据 提供 的 信息 来 实施 ,包括 如 下 物化 策略 : 完全 物化 .不 物化 和 部 分 物化 。 
为 了 提高 数据 立方 体 的 OLAM 操作 的 性 能 ,提高 数据 在 数据 仓库 中 的 品质 ,环绕 数据 仓库 
建立 可 用 的 信息 处 理 基 础 设备 ,基于 OLAP 进行 探索 性 的 数据 分 析 , 并 且 可 以 在 线 进行 数 
据 挖掘 功能 的 选择 。 在 数据 仓库 的 基础 上 可 以 进一步 实现 OLAM 的 数据 处 理 功 能 。 
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第 4 章 相关 性 与 关联 规则 


关联 规则 挖掘 是 数据 挖掘 领域 中 研究 最 为 广泛 也 最 为 活跃 的 方法 之 一 。 最 初 的 研究 动 
机 是 针对 购物 篮 分 析 (Basket Analysis) 问 题 提出 的 ,目的 是 为 了 解决 发 现 交易 数据 库 
(Transaction Database) 中 不 同 商 品 之 间 的 联系 规则 。 关 联 规则 最 早 是 由 Agrawal 等 人 提 
出 (1993 年 ) ,随后 大 量 的 研究 人 员 对 关联 规则 挖掘 问题 进行 了 大 量 的 研究 ,从 最 初 的 挖掘 
理论 的 探索 、. 原 有 算法 的 改进 ,到 新 算法 的 设计 ,到 今天 的 并 行 关联 规则 挖掘 (Parallel 
Association Rule Mining) 以 及 数量 关联 规则 挖掘 (CQuantitive Association Rule Mining) 等 
方法 的 应 用 ,关联 规则 挖掘 方法 已 经 日 至 成 熟 ,并 在 很 多 领域 中 有 了 广泛 的 应 用 。 本 章 将 对 
相关 性 和 关联 规则 挖掘 的 基本 概念 .方法 以 及 相关 算法 进行 介绍 。 


4.1 基本 概念 


相关 性 与 关联 规则 是 对 给 定数 据 集中 反复 出 现 的 联系 进行 控 气 提取 ,在 本 节 中 将 对 关 
联 规则 挖掘 的 基本 概念 进行 简单 介绍 。4. 1. 1 节 给 出 了 关联 规则 潜在 的 应 用 ;4. 1. 2 节 介绍 
购物 篮 分 析 的 例子 ,这 是 关联 规则 频繁 模式 挖掘 的 初始 形式 ;4. 1. 3 节 将 对 频繁 模式 分 析 、 
闭 项 集 和 关联 规则 的 基本 概念 进行 详细 解释 。 


4.1.1 潜在 的 应 用 


在 传统 的 零售 商店 中 顾客 购买 东西 的 行为 是 零散 的 ,但 随 着 超级 市 场 的 出 现 ,大 型 超市 
已 经 可 以 满足 顾客 一 次 购物 即 可 买 到 自己 想 要 的 商品 ,同时 随 着 网 络 购物 的 兴起 ,很 多 人 选 
择 在 网 上 挑选 自己 想 要 的 东西 ,这 些 商家 以 及 网 站 很 容易 将 购买 记录 收集 和 存储 下 来 。 通 
过 对 这 些 数 据 的 智能 化 分 析 , 可 以 获得 有 关 顾 客 购买 模式 的 一 般 性 规则 。 
早 在 20 世纪 90 年 代 的 美国 沃尔玛 超市 中 ,沃尔玛 的 超市 管理 人 员 分 析 销 售 数据 时 发 
现 了 一 个 令 人 难以 理解 的 现象 ,在 某 些 特定 情况 下 ,“ 啤 酒 ”与 “尿布 "两 件 看 上 去 毫 无 关系 的 
品 经 常会 出 现在 同一 个 购买 记录 里 。 如 果 一 个 年 轻 的 父亲 可 以 很 方便 地 同时 购买 到 两 件 
产品 ,那么 他 很 可 能 会 经 常 性 地 选择 在 这 家 超市 购买 商品 ,通过 对 客户 购买 模式 的 分 析 寻 找 
到 一 般 性 的 规则 ,从 而 使 顾客 能 够 更 加 快捷 方便 地 完成 购物 ,进而 产生 良好 的 销售 记录 ,这 
也 就 产生 了 最 初 的 关联 规则 的 潜在 应 用 。 这 些 规则 刻画 了 顾客 购买 行为 模式 ,可 以 用 来 指 
导 商 家 科学 地 安排 进货 .库存 以 及 货架 商品 摆 放 设计 等 。 图 4. 1 描绘 了 一 个 简单 的 关联 规 
则 挖掘 的 潜在 应 用 。 
其 实 , 除 了 上 面 提 到 的 一 些 商 品 间 存在 的 奇特 关联 现象 外 ,在 其 他 方面 ,例如 医学 研究 
人 员 和 希望 从 已 有 的 成 千 上 万 份 病历 中 找到 患 某 种 疾病 的 病人 的 共同 特征 ,从 而 为 治愈 这 种 
疾病 提供 一 些 帮助 。 男 外 ,通过 对 用 户 信 用 卡 账 单 的 分 析 也 可 以 得 到 用 户 的 消费 方式 ,有 助 
于 对 相应 的 商品 进行 市 场 推广 等 。 关 联 规则 的 挖掘 方法 已 经 涉及 到 了 生活 的 很 多 方面 ,为 
人 们 的 生活 提供 了 极 大 的 便利 。 
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“ 周 四 下 午 4~11 点 ,顾客 经 常 同时 购买 尿布 
和 啤酒 ” 


é 
图 4.1 一 个 简单 的 关联 规则 的 潜在 应 用 


4.1.2 购物 篮 问 题 


通过 频繁 项 集 挖掘 可 以 发 现 大 型 事务 或 关系 数据 集中 事物 与 事物 之 间 有 趣 的 关联 。 随 
着 大 型 数据 库 的 建立 和 不 断 扩充 ,很 多 分 析 人 员 已 经 可 以 从 数据 库 中 挖掘 潜在 的 关联 规则 ， 
从 而 发 现 事物 间 的 相关 联系 ,进而 帮助 商家 进行 决策 .设计 和 分 析 顾 客 购买 习惯 。 

假设 给 定 一 个 很 大 的 超市 ,里 面包 含 任 何 顾客 想 购 买 的 任何 东西 ,那么 作为 超市 的 管理 
者 ,如 何 找到 最 常 出 现在 顾客 “购物 篮 ” 中 的 东西 呢 ? 或 者 哪些 东西 是 最 为 常见 同时 出 现在 
顾客 的 "购物 篮 " 中 的 呢 ? 或 者 当 顾 客 购买 了 某 些 商品 后 可 能 诱发 他 们 一 路 购买 哪些 其 他 
商品 ? 

频繁 项 集 挖掘 的 典型 事例 就 是 购物 篮 问 题 。 通 过 发 现 顾客 “购物 篮 ” 中 不 同 商品 之 间 的 
关联 ,分 析 顾 客 的 购买 习惯 ,帮助 零售 商 了 解 哪些 商品 被 频繁 地 同时 购买 。 例 如 ,如 果 顾 客 
购买 了 面包 ,那么 他 们 很 可 能 也 会 购买 果 桨 ,这 种 信息 可 以 很 好 地 帮助 管理 人 员 选 择 性 地 安 
排 货架 商品 位 置 , 以 减少 顾客 购买 所 花费 的 时 间 以 及 提高 销售 量 。 

例 4-1 购物 篮 问题 。 假 设 商 店 里 有 商品 {milk,coke.pepsi,beer,juice} ,并 有 以 下 购物 
记录 ， 

B= (milk, coke, beer}, B= {milks pepsi, juice}, B= (milk, beer}, 

B= {coke, juice}, B= {milk, pepsi, beer}. B= {milk, coke, beer, juice}, 

B,= {coke, beer, juice}, B= (coke. beer} 

作为 商店 的 主管 ,了 解 什么 商品 会 被 顾客 经 常 性 地 购买 ,从 而 预测 进货 的 数量 等 。 为 了 
解决 这 个 问题 ,可 以 通过 统计 商品 被 购买 的 次 数 来 进行 分 析 。 一 般 来 说 ,会 对 支持 度 较 高 的 
一 些 商品 感 兴趣 ,也 就 是 说 当 支 持 度 达到 一 定 的 阔 值 后 , 某 种 ( 些 ) 商 品 才 有 被 挖掘 的 潜力 ， 
这 个 冰 值 就 是 最 小 支持 度 计数 (min_sup) , 当 某 种 商品 的 支持 度 超过 最 小 支持 计数 阔 值 时 ， 
这 个 ( 些 ) 商 品 就 叫 频繁 项 集 。 假 设 设 定 最 小 支持 度 为 3, 也 就 是 出 现 次 数 最 少 为 3 的 商品 
CR) ,通过 简单 的 计数 统计 ,最 终 得 到 的 频繁 项 集 为 : 


{milk}, {coke}, {beer}, {juice}, {milk,beer}, {coke,beer}, (uice，coke]。 
4.1.3 频繁 模式 分 析 、 闭 项 集 和 关联 规则 


一 个 事务 数据 库 中 的 关联 规则 挖掘 可 以 描述 如 下 : 
设 [一 人 有, 了)} 是 一 个 项 目 集合 ,事务 数据 库 D 二 {4 ,ts,…,t,} 是 由 一 系列 具有 
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唯一 标示 Tw 的 事务 组 成 ,每 个 事务 t;(i 二 1,2,…,n) 都 对 应 TT 上 的 一 个 子 集 。 
定义 4-1 设 工 ST, 项 目 集 (Itemset) 世 在 数据 集 D 上 的 支持 度 (Support) 是 包含 荆 的 
事务 在 DD 中 所 占 的 百分比 , 即 


Iiee DIL Ee} |l 
I} DII 


Support(I,) (4-1) 


例如 在 例 4-1 中 ,milk 的 支持 度 为 62. 5%。 

定义 4-2 对 项 目 集 工 和 事务 数据 库 D,T 中 所 有 满足 用 户 指定 的 最 小 支持 度 
(Minsupport) 的 项 目 集 , 即 大 于 或 等 于 Minsupport 的 了 的 非 空子 集 称 为 频繁 项 目 集 
(Frequent Itemsets) 或 大 项 目 集 (Large Itemsets) 。 在 频繁 项 目 集 中 挑选 出 所 有 不 被 其 他 
元 素 包含 的 频繁 项 目 集 作 为 最 大 频繁 项 目 集 (Maximum Frequency Itemsets) 或 最 大 项 目 集 
(Maximum Large Itemsets) 。 

定义 4-3 (RK ACI,BCI JF A ANB= 坟 ,关联 规则 是 形 如 ASB 的 蕴含 式 ,定义 在 
这 个 关联 规则 的 置信 度 是 指 包 含 A 同时 包含 B 的 事务 数 之 比 , 即 


Confidence(A>B) = Support(A U B) (4-2) 


Support(A) 
在 例 4-1 P, milk beer 的 置信 度 是 80%. 
定义 4-4 DD 在 I 上 满足 最 小 支持 度 和 最 小 置信 和 度 (Minconfidence) 的 关联 规则 称 为 强 
关联 规则 (Strong Association Rule)。 
通常 意义 上 所 说 的 关联 规则 都 是 指 强 关联 规则 。 
一 般 来 说 ,给 定 一 个 事务 数据 库 ,关联 规则 挖掘 问题 就 是 通过 用 户 指 定 最 小 支持 度 和 最 
小 置信 度 来 寻找 强 关 联 规则 的 过 程 。 关 联 规则 挖掘 一 般 可 以 划分 为 两 个 子 问 题 。 


1. 发 现 频繁 项 目 集 


通过 用 户 给 定 的 最 小 支持 度 , 寻 找 所 有 频繁 项 目 集 , 即 满足 支持 度 不 小 于 Minsupport 
的 所 有 项 目 子 集 。 事 实 上 ,这些 频繁 项 目 集 可 能 具有 包含 关系 。 一 般 地 ,只 关心 那些 不 被 其 
他 频繁 项 目 集 所 包含 的 所 谓 最 大 频繁 项 目 集 的 集合 。 发 现 所 有 的 频繁 项 目 集 是 形成 关联 规 
则 的 基础 。 


2. 由 频繁 项 集 产 生 关 联 规 则 


通过 用 户 给 定 的 最 小 置信 度 , 在 每 个 最 大 频繁 项 目 集中 寻找 置信 度 不 小 于 
Minconfidence 的 关联 规则 。 

相对 于 第 一 个 子 问 题 来 说 ,由 于 第 二 个 子 问题 相对 简单 ,而 且 在 内 存 .NO 以 及 算法 效 
率 上 改进 余地 不 大 ,因此 第 一 个 子 问 题 是 近 几 年 来 关联 规则 挖掘 算法 研究 的 重点 。 

从 大 型 数据 集中 挖掘 频繁 项 集 的 主要 挑战 是 这 种 挖掘 常常 产生 大 量 满足 最 小 支持 度 
的 项 集 , 当 最 小 支持 度 设置 很 低 的 时 候 更 是 如 此 。 这 是 因为 如 果 一 个 项 集 是 频繁 的 , 它 
的 每 个 子 集 也 是 频繁 的 ,一 个 长 项 集 将 包含 组 合 个 数 较 短 的 频繁 子 项 集 。 这 将 产生 过 于 
庞大 的 数据 开销 ,尤其 当 数 据 量 很 大 的 时 候 , 对 于 任何 计算 机 来 说 ,计算 的 速度 和 存储 空 
间 都 是 制约 关联 挖掘 的 重要 问题 ,因此 为 了 解决 这 个 问题 ,在 这 里 引入 闭 项 集 和 极 大 频 
繁 项 集 的 概念 。 
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如 果 不 存在 真 超 项 集 DY 使 得 Y 与 X 在 工 中 有 相同 的 支持 度 计数 , 则 称 项 集 X 在 数据 
集 工 中 是 闭 的 。 项 集 X 是 数据 集 工 中 的 闭 频繁 项 集 , 如 果 X 在 工 中 是 闭 的 和 频繁 的 ,项 集 
X 是 [中 的 极 大 频繁 项 集 ( 或 极 大 项 集 ) 。 


4.2 频繁 项 集 挖掘 方法 


在 本 节 中 将 介绍 最 简单 也 是 最 常见 的 频繁 项 集 挖掘 的 算法 。4. 2. 1 节 将 对 Apriori 算 
法 进行 详细 介绍 ,Apriori 是 一 种 发 现 频繁 项 集 的 基本 算法 ;4. 2.2 节 将 介绍 如 何 通过 频繁 
项 集 产生 关联 规则 ;4. 2. 3 节 介 绍 Apriori 的 效率 ,以 及 如 何 提高 Apriori 的 效率 ;4. 2. 4 节 
将 介绍 另 一 种 频繁 项 集 挖掘 的 算法 , 它 与 Apriori 算法 不 同 ,并 且 在 算法 的 效率 上 有 显著 
提高 。 


4.2.1 Apriori 算法 


Apriori 算 法 是 R. Agrawal 和 R. Srikant 于 1994 年 提出 的 为 布尔 关联 规则 控 掘 频繁 项 
集 的 原创 性 算法 。Apriori 使 用 一 种 称 作 逐 层 搜索 的 迭代 方法 ,k 项 集 用 于 探索 k 十 1 项 集 。 

在 介绍 Apriori 算法 前 ,首先 介绍 一 种 称 为 Apriori 性 质 的 重要 理论 , 它 主要 用 于 压缩 
搜索 空间 ,从 而 更 快 地 找到 频繁 项 集 。 

Apriori 性 质 : 频繁 项 集 的 所 有 非 空 子 集 也 必须 是 频繁 的 。 即 如 果 项 集 A 不 满足 最 小 
支持 度 国 值 Minsupport, 则 A 不 是 频繁 的 ,如 果 将 项 集 B 添加 到 项 集 A 中 ,也 就 是 AUB 
也 不 可 能 是 频繁 的 。 

该 性 质 是 一 种 反 单调 性 的 性 质 , 也 就 是 说 如 果 一 个 集合 不 能 通过 测试 , 则 它 的 所 有 超 集 
也 都 不 能 通过 相同 的 测试 。 

Apriori 算法 简单 来 说 主要 有 以 下 几 个 步骤 : 首先 通过 扫描 数据 库 积 累 每 个 项 的 计数 ， 
并 收集 满足 最 小 支持 度 的 项 , 找 出 频繁 1- 项 集 的 集合 (该 集合 记 做 Li )。 然 后 Li 用 于 找到 
频繁 2- 项 集 的 集合 L, ,利用 工 ,再 找到 工 ; ,如 此 下 去 直到 不 能 再 找到 频繁 k- 项 集 为 止 。 其 算 
法 描述 如 算法 4. 1 所 示 。 

算法 4.1 Apriori 算法 

输入 : 数据 集 D; 最 小 支持 度 计数 minsup cant, 

输出 :频繁 项 目 集 工 


(1) L= Git 1- GUE} // 所 有 支持 度 不 小 于 minsupport 的 二 项 集 
(2) fon k= 2; O;k+ +) 

8) G.=apriori- gen (Lı); //G: 是 k 个 元 素 的 候选 集 

(4) for all transaction t€ D 

(5) C= subset (G,,t) 7 

(6) for all candidates cE G 

(7) c.count+ + 7 

(8) End for 

(9) End for 


O Y 是 X 的 真 超 项 集 , 如 果 和 是 了 的 真子 项 集 , 即 如 果 XCY。 换 言 之 ,X 中 的 每 一 项 都 包含 在 了 中 ,但 是 Y 中 至 
少 有 一 个 项 不 在 和 中 。 
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(10) L= {cE G |c.count> =minsup count} 
(11) End for 
(2) FUL 


算法 4. 1 中 调用 了 apriori-gen(Ly_1) ,是 为 了 通过 (k 一 1)- 项 集 产生 k- 项 集 。 算 法 4. 2 
对 apriori-gen 过 程 进行 了 详细 描述 。 

算法 4.2 apriori-gen( Ly, ) REFE) 

输入 : (ecD- 项 集 。 

输出 : 入 候 选集 Ge。 

(1) for all itemset pE Ip: 

(2) for all itemset qe D 


(3) if (p.iten=q.iten, p.iten=q.item ,** ,p.iten..=q.iten.2, 
(4) p.item. .<q-item..) 

(5) Epoq 

(6) if has infrequent subset (c,L,..:)) delete c; 

0) else addc toG; 

(8) End for 

(9) End for 

(10) Return G, 


在 算法 4. 2 中 调用 了 has_infrequent_subset(c.Ly—1) ,是 为 了 判断 c 是 否 需 要 加 入 到 k- 
项 集中 。 根 据 Apriori 的 性 质 ,含有 非 频 繁 项 目 子 集 的 元 素 不 可 能 是 频繁 项 目 集 , 因 此 应 该 
删 掉 那些 含有 非 频繁 项 目 子 集 的 项 目 集 . 以 提高 效率 。 对 于 has_infrequent_subset(c， 
Lx-1) 过 程 ,算法 4.3 给 出 了 详细 的 描述 。 

算法 4.3 ”has_infrequent_subset(c,Lx-_1) (判断 候选 集 的 元 素 ) 

输入 :一 个 SIGE c k DT- 项 集 Lio 

输出 : 是否 从 候选 集中 删除 。 

(1) for all (k- 1)- subsets of c 

(2) if SẸ I, 

(3) retum true; 

(4) retum false 


为 了 更 好 地 了 解 Apriori 算法 ,下 面 用 一 个 例子 对 Apriori 算法 进行 详细 说 明 。 
例 4-2 假设 如 表 4. 1 所 示 的 样本 数据 库 ,假设 最 小 支持 度 为 2。 


表 4.1 样本 数据 库 DD 


Tid Items 
10 A.C.D 
20 B.C.E 
30 A.B.C,E 
40 B.E 


产生 频繁 项 集 的 过 程 如 图 4. 2 所 示 。 
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30 | 4,B,C,E {D} 1 {E} | 3 
40 BE {E} 3 
L, Cc C, 
Itemset_| sup Itemset | sup Itemset 
ao | 2 | 一 ua |i {4,B} 
{B.C} | 2 Te 5 2 scan {4,C} 
{BE} | 3 ua AB} 
{CE} 2 {4,E} 1 {B,C} 
{B,C} 2 {B,E} 
{BE} | 3 {CE} 
{C,E} 2 
G L; 
Itemset 3"scan Itemset | sup 
一 
{B,C,E} {B,C,E} 2 


图 4.2 产生 频繁 项 集 的 过 程 


那么 ,最 终 产生 的 频繁 1- 项 集 、 频 繁 2- 项 集 和 频繁 3- 项 集 分 别 是 : 
Ly: {A},{B}.{C}.{E}; 
Le: {A,C},{B.C},{B,E}.{C,E}; 
Bae {BG EY}s 

所 有 的 频繁 项 集 为 {A,B,C,E,AC,BC,BE.,CE,BCE}。 


4.2.2 由 频繁 项 集 产生 关联 规则 


一 旦 由 数据 库 D 中 的 事务 找 出 频繁 项 集 ,可 以 直接 由 它们 产生 强 关 联 规则 , 即 满足 最 
小 支持 度 和 最 小 置信 度 的 规则 (最 小 置信 度 的 公式 如 式 (4-2) 所 示 ) 。 

例 4-3 在 例 4-2 产生 的 频繁 项 集中 ,对 于 频繁 项 集 工 一 14B,C, 已 } 来 说 ,可 以 通过 工 得 
到 哪些 关联 规则 ? 工 的 非 空 子 集 有 {B),{C}),{E),{B,C),{C,E),{B,E)。 部 分 关联 结果 
如 下 : 


B>C.E confidence=2/3=67% 
C>B,E confidence=2/3=67% 
E>B,C confidence=2/3=67% 
C,E>B confidence=2/2=100% 
B,E>C confidence=2/3=67% 
B,C>E confidence=2/2=100% 


WR eh fe BE BEL 80% ,那么 只 有 第 一 个 和 第 三 个 规则 满足 条 件 , 即 强 关 联 规则 。 


在 这 里 需要 注意 的 一 点 就 是 ,关联 规则 的 右 端 可 以 包含 多 个 合 取 项 。 
a 3 


4.2.3 提高 Apriori 的 效率 


Apriori 作为 经 典 的 频繁 项 集 产生 算法 ,在 数据 挖掘 领域 里 具有 里 程 碑 的 作用 。 但 随 着 
应 用 的 深入 , 它 的 缺点 也 逐渐 暴露 出 来 ,其 主要 的 瓶颈 有 以 下 两 个 : 

(1) 多 次 扫描 事务 数据 库 ,需要 很 大 的 1/O 负载 。 

对 每 次 & 循环 ,候选 集 Ce 中 的 每 个 元 素 都 必须 通过 扫描 数据 库 一 次 来 验证 其 是 否 加 入 
L:。 加 入 一 个 频繁 大 项 集 包 含 10 个 项 ,那么 就 至 少 需要 扫描 事务 数据 库 10 次 。 

(2) 可 能 产生 庞大 的 候选 集 。 

由 LL-1 产 生 k- 候 选集 Ci 是 指数 增长 的 ,例如 10’ 个 频繁 1- 项 集 就 有 可 能 产生 将 近 10 
个 元 素 的 2- 候 选集 。 如 此 庞大 的 候选 集 对 时 间 和 主 存 空 间 都 是 一 种 挑战 。 因 此 很 多 研究 
人 员 对 Apriori 算法 进行 了 很 多 的 改进 ,以 提高 算法 的 效率 。 


1. 基于 散 列 的 方法 


1995 年 ,Park 等 提出 了 一 种 基于 散 列 (Hash) 技 术 产生 频繁 项 集 的 算法 。 这 种 方法 把 
扫描 的 项 目 放 到 不 同 的 Hash 桶 中 ,每 个 频繁 项 最 多 只 可 能 放 在 一 个 特定 的 桶 里 ,这 样 可 以 
对 每 个 桶 中 的 频繁 项 自己 进行 测试 ,减少 了 候选 频繁 项 集 产 生 的 代价 。 

例 4-4 对 于 表 4. 2 中 给 出 的 数据 ,加 入 使 用 Hash 函数 “(10Xx 十 y)mod 7? 生 成 {z,y} 
对 应 的 桶 地 址 ,那么 扫描 数据 的 同时 可 以 把 可 能 的 2- 项 集 {z,y} 放 入 对 应 的 桶 中 ,并 对 每 个 
桶 内 的 项 目 集 进行 计数 ,结果 如 表 4. 3 所 示 。 假 设 最 小 支持 度 计数 为 3, 根 据 表 4. 3 的 计数 
ER La ={ (12,13) ,(11,12),(11,13)}. 


R42 事务 数据 库 示例 


Tid Ttems Tid Ttems 

1 11,12,15 6 12,13 

2 12,14 f I1,13 

3 12,13 8 71,12,13,15 
4 11,12,14 9 11,12,13 

5 11.13 


R43 2- 项 集 的 桶 分 配 示例 


桶 地 址 0 2 3 4 5 6 
桶 计数 2 4 2 4 4 
{12,13} {11,12} {11,13} 
精 内 容 {11,14} {11,15} {12,13} {12,14} | {12,15} {11.12} {11,13} 
R {13.15} {11,15} {12,13} {12,14} | {12,15} {11,12} {11.13} 
{12,13} {11,12} {11,13} 
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2. 事务 压缩 


事务 压缩 是 指 压缩 未 来 迭代 扫描 的 事务 数 。 由 于 不 包含 任何 频繁 k- 项 集 的 事务 是 不 
可 能 包含 任何 频繁 (k 十 1)- 项 集 的 ,因此 这 种 事务 在 后 续 的 考虑 中 可 以 加 上 标记 或 者 直接 删 
除 , 因 此 产生 j- 项 集 (j 二) 的 数据 库 扫 描 不 再 需要 它们 。 


3. 基于 数据 划分 (Partition) 的 方法 


Apriori 算法 在 执行 过 程 中 首先 生成 候选 集 , 然 后 再 进行 剪 枝 。 可 是 生成 的 候选 集 并 不 
都 是 有 效 的 ,有 些 候选 集 根 本 就 不 是 事务 数据 的 项 目 集 。 因 此 ,候选 集 的 产生 具有 很 大 的 代 
价 。 特 别 是 内 存 空 间 不 够 导致 数据 库 与 内 存 之 间 不 断交 换 数据 ,会 使 算法 的 效率 变 得 很 差 。 

把 数据 划分 应 用 到 关联 规则 挖掘 中 ,可 以 改善 关联 规则 挖掘 在 大 容量 数据 集中 的 适应 
性 。 其 基本 思想 是 把 大 容量 数据 库 从 逮 辑 上 分 成 几 个 互 不 相交 的 块 , 每 块 应 用 挖掘 算法 (如 
Apriori 算法 ) 生 成 局 部 的 频繁 项 集 ,然后 把 这 些 局 部 的 频繁 项 集 作 为 候选 的 全 局 频繁 项 目 
集 , 通 过 测试 它们 的 支持 度 来 得 到 最 终 的 全 局 频繁 项 目 集 。 


4. 基于 采样 (Sampling) 的 方法 


基于 采样 的 方法 是 Toivonen 于 1996 年 提出 的 ,这 个 算法 的 基本 思想 是 : 选取 给 定数 
据 D 的 随机 样本 S ,然后 在 S 而 不 是 D 中 搜索 频繁 项 集 。 用 这 种 方法 是 牺牲 了 一 些 精度 换 
取 有 效 性 。 样 本 S 的 大 小 选取 使 得 可 以 在 内 存 搜索 S 中 的 频繁 项 集 。 这 样 ,只 需要 扫描 一 
次 S 中 的 事务 。 由 于 算法 只 是 搜索 S 中 的 数据 ,因此 可 能 会 丢失 一 些 全 局 频繁 项 集 。 为 了 
减少 这 样 的 情况 ,使 用 比 最 小 支持 度 低 的 支持 度 阔 值 来 找 出 局 部 于 S 的 频繁 项 集 ( 记 做 
Ls)。 然 后 ,数据库 的 其 余部 分 用 于 计算 Ls 中 每 个 项 集 的 实际 频率 。 使 用 一 种 机 制 来 确定 
是 否 所 有 的 频繁 项 集 都 包含 在 Ls 中 。 如 果 Ls 实际 包含 了 D 中 的 所 有 频繁 项 集 , 则 只 需 扫 
描 一 次 D。 和 否则 ,可 以 做 第 二 次 扫描 来 找 出 第 一 次 扫描 时 遗漏 的 频繁 项 集 。 


4.2.4 挖掘 频繁 项 集 的 模式 增长 方法 


在 很 多 情况 下 ,Apriori 算法 已 经 能 够 很 好 地 解决 关联 规则 挖掘 的 问题 ,并 有 很 好 的 性 
能 表现 。 但 同时 它 也 有 着 很 大 的 缺陷 : 会 产生 大 量 的 候选 项 集 ;需要 重复 地 扫描 数据 库 。 

那么 ,是 否 可 以 设计 一 种 方法 挖掘 全 部 频繁 项 集 而 不 产生 候选 集 ? Han 等 人 于 2000 
年 提出 了 一 种 称 为 频繁 模式 增长 (Frequent Pattern-growth,FP-growth) 的 算法 。 这 种 算法 
只 需要 进行 两 次 数据 库 扫 描 , 并 且 它 不 会 产生 候选 集 , 直 接 压 缩 数 据 库 成 为 一 个 频繁 模式 
树 ,最 后 通过 这 棵 树 生成 关联 规则 。 

FP-growth 算法 主要 采用 如 下 的 分 治 策略 : 首先 将 提供 频繁 项 的 数据 库 压 缩 到 一 个 频 
繁 模式 树 (FP-tree) ,但 仍 保 留 相关 信息 。 然 后 将 压缩 后 的 数据 库 划 分 成 一 组 条 件数 据 库 ， 
每 个 关联 一 个 频繁 项 或 “模式 段 ", 并 分 别 挖掘 每 个 条 件数 据 库 。 具 体 算法 如 算法 4.4 所 示 。 

算法 4.4 FP-tree 构造 算法 

输入 :事务 数据 库 IB; 最 小 支持 度 国 值 Minsupport。 

输出 : FP- tree 树 。 

D 扫描 事务 数据 库 D 一 次 。 收 集 频繁 项 集合 F 以 及 它们 的 支持 度 计 数 ,对 按照 支持 度 计 数 降序 排 
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序 , 得 到 频繁 项 列表 工 

(2) 创建 丁 -tree 的 根 节点 ,以 "mall" 慰 记 它 。 对 于 D 中 的 每 个 事务 了 , 作 如 下 处 理 : 选择 了 中 的 频繁 项 ， 
并 按照 工 中 的 次 序 进行 排序 ,排序 后 的 频繁 项 标记 为 [plP], 其 中 p 是 第 一 个 元 素 ,P 是 剩余 元 素 的 表 。 
调用 insert_tree([p1P], 了 ) 将 此 元 组 对 应 的 信息 加 入 到 了 中 。 


构造 FP-tree 算法 的 核心 是 insert_tree 过 程 。Insert_tree 过 程 是 对 数据 库 的 一 个 候选 
项 目 集 的 处 理 , 它 对 排序 后 的 一 个 项 目 集 的 所 有 项 目 进行 递归 式 的 处 理 直 到 项 目 表 为 空 。 
算法 4.5 insert_tree([p|P],T) 


(1) fff 有 一 个 子女 N 使 得 N.item- name=p.item- nawe) 

(2) NN 的 计数 加 一 

(3) else 

(4) 创建 一 个 新 节点 ,将 其 计数 设 为 1, 链 接 到 它 的 父 节点 了 ,并 通过 节点 链 结构 将 其 链接 到 具有 
相同 项 名 的 节点 。 

(5) 如 果 P 非 空 ,递归 地 调用 insert tree (P,N). 


为 了 更 好 地 理解 FP-tree 的 构建 ,通过 以 下 例子 来 对 算法 进行 说 明 。 

例 4-5 对 于 一 个 给 定 的 事务 数据 库 , 通 过 一 次 扫描 后 去 掉 不 频繁 的 项 目 ( 本 例子 中 设 
定 最 小 支持 度 冰 值 为 3) ,并 按照 出 现 的 频率 降序 排列 。 表 4.4 中 给 出 了 原始 数据 以 及 整理 
后 的 数据 。 


表 4.4 样本 数据 库 / 排 序 后 的 数据 库 


Tid 原始 项 目 集 整理 后 的 项 目 集 
100 {F asc. ds g, ism, p} {fs cs as m, p} 
200 {as bs cs fy Ls my o} {fs cs as bs m} 
300 {bs f» h, j, o, wh {f, 6} 

400 {bs co ks Ss p} {cs b, p} 

500 {as fs cs es ls ps ms n} {fs cs as m, p} 


通过 一 次 扫描 ,可 以 得 到 频繁 1- 项 集 L 二 {fc,a,b,m,p) ,如 图 4.3 所 示 。 利 用 得 到 的 
频繁 1- 项 集 创建 树 的 根 节点 ,用 Null 标记。 第 二 次 扫描 数据 库 D, 并 对 每 一 个 事务 创建 一 
个 分 支 : 

(1) 第 一 个 事务 T100 E L 的 次 序 包含 5 个 项 {f,c,a,m,p) ,导致 构造 树 的 第 一 个 分 
支 过 fl 一 cl 一 al 一 ml 一 p1>。 

(2) 对 于 第 二 个 事务 T200, 由 于 其 排序 后 的 频繁 项 表 为 {f,c,a,b,m) ,已 经 与 分 支 {f， 
cvasm,p} 有 共同 的 前 级 {f,c,a) ,因此 前 级 中 的 每 个 节点 计数 加 1, 只 创建 两 个 新 的 节点 ml 
Al pl. FE WRAY Se BEN < f2—c2—a2—b1—m1>,. 

(3) 按照 这 种 方法 处 理 T300~ T500 ,并 按照 要 求 连接 到 项 头 表 和 把 相同 的 项 目 连接 起 
来 ,如 图 4. 3 所 示 。 最 终 得 到 FP-tree。 

前 面 已 经 提 到 了 如 何 构建 FP-tree, 接 着 对 如 何 通过 FP-tree 产生 频繁 项 集 进 行 详细 解 
释 。 利 用 FP-tree 算法 分 析 频 繁 项 集 的 基本 思想 , 即 分 而 治之 ,构造 过 程 如 算法 4.6 所 示 。 

算法 4.6 利用 FP-tree 挖掘 频繁 项 集 


输入 :构造 好 的 FP- tree, 事 务 数据 库 D, 最 小 支持 度 阔 值 Minsupport。 
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图 4.3 样本 数据 库 对 应 的 FP-tree 


输出 :频繁 项 集 。 

FP- growth (Tree, a) 

(1) if( Tree 仿 单个 路 径 BP) 

(2) for 路径 P 中 节点 的 每 个 组 合 ( 记 作 B) 

(3) 产生 模式 B U a, 其 支持 度 support=B 中 节点 的 最 小 支持 度 
(4) else for each a 在 Tree 的 头 部 { 

(5) 产生 一 个 模式 B =a U a, 其 支持 度 support=a .support; 

(6 ”构造 8B 的 条 件 模式 基 , 然 后 构造 B 的 条 件 FE- 树 Treg; 

(7) if Treg 0 then 

(8) 调用 EP_growth (Tree, B); 


通过 算法 4.6, 可 以 对 例 4-6 得 到 的 FP-tree 进一步 分 析 , 得 到 挖 据 FP_tree 的 过 程 ,如 
表 4.5 所 示 。 


表 4.5 频繁 项 集 产生 过 程 


项 条 件 模式 基 条 件 FP-tree 产生 的 频繁 项 集 

è f:3 <f:3> fc:3 

a fe:3 <fe:3> fea:3,ca:3.fa:3 

b fca:1, f:1，c:1 Ø Ø 

m fca:2, fcab:1 <fea:3> fema:3,fm:3.cm:3,am;3.fem:3,.fam:3.cam;3 
p fcam:2, cb:1 <e:3> cp:3 


4.3 多 种 关联 规则 挖掘 


4.3.1 挖掘 多 层 关 联 规则 


对 于 许多 应 用 ,由 于 多 维 数据 空间 数据 的 稀 朴 性 ,在 低层 或 原始 层 的 数据 项 之 间 很 难 找 

出 强 关 联 规则 。 在 较 高 的 概念 层次 发 现 的 强 关 联 规则 有 可 能 提供 具有 普遍 意义 的 知识 。 然 

而 ,对 一 个 用 户 代 表 普 遍 意 义 的 知识 ,对 男 一 个 用 户 可 能 是 新 颖 的 。 这 样 ,数据 挖掘 系统 应 
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当 提 供 一 种 能 力 ,在 多 个 抽象 层 挖掘 关联 规则 ,并 容易 在 不 同 的 抽象 空间 转换 。 例 如 ,在 商 
场 事 务 数据 库 中 ,销售 模式 在 原始 数据 上 也 许 不 能 显示 规则 ,但 在 某 些 高 层次 上 能 显示 有 用 
信息 。 目 前 关联 规则 的 挖掘 已 经 从 单一 概念 层 发 展 到 多 概念 层 , 形 成 逐步 深化 的 知识 发 现 
过 程 。 

对 于 事务 或 关系 型 数据 库 来 说 ,一 些 项 或 属性 所 隐 含 的 概念 是 有 层次 的 。 例 如 , 当 提 到 
“洗衣 机 ”, 对 于 一 个 分 析 和 决策 应 用 来 说 ,就 可 能 关心 它 的 更 高 层次 概念 一 一 家 用 电器 。 对 
不 同 的 用 户 而 言 , 可 能 某 些 特定 层次 的 关联 规则 更 有 意义 。 同 时 ,由 于 数据 的 分 布 和 效率 方 
面 的 考虑 ,数据 可 能 在 多 种 粒度 层次 上 存储 ,因此 挖掘 多 层次 关联 规则 就 可 能 得 出 更 深入 、 
更 有 说 服 力 的 知识 。 

在 图 4.4 中 给 出 了 一 个 关于 商品 的 多 层次 概念 树 , 多 层次 关联 规则 挖掘 可 以 分 为 同 层 
次 关联 规则 和 层 间 关联 规则 。 如 果 一 个 关联 规则 对 应 的 项 目 是 同一 个 粒度 层次 ,那么 它 是 
同 层次 关联 规则 ,例如 desktop education 就 属于 同 层 次 关联 规则 ;如 果 在 不 同 的 粒度 层次 
上 考虑 问题 ,那么 就 可 能 得 到 的 是 层 间 关联 规则 ,如 education Sony. 
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目前 ,多 层次 关联 规则 挖掘 的 度量 方法 基本 上 沿用 了 “支持 度 -可 信和 度 ” 的 框架 ,不 同 的 
是 ,对 支持 度 的 设置 还 需要 考虑 不 同 层次 的 度量 策略 。 


1. 多 层次 关联 挖掘 有 两 种 基本 设置 支持 度 的 策略 


(1) 统一 的 最 小 支持 度 。 
对 于 所 有 层次 ,都 使 用 同一 个 最 小 支持 度 。 例 如 ,图 4. 5 中 设置 最 小 支持 度 阔 值 为 
5%. computer 和 laptop computer 都 是 频繁 的 ,但 desktop computer 不 是 。 


Æl computer(support=10%) 


min_sup=5% P 
层 2 


min_sup=5% laptop computer(support=6%) desktop computer(support=4%) 


图 4.5 具有 一 致 最 小 支持 度 的 多 层 关联 规则 挖掘 
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这 样 对 于 用 户 和 算法 实现 来 说 相对 容易 ,而且 很 容易 支持 层 间 的 关联 规则 产生 。 但 同 
时 也 有 很 大 的 次 端 : 首先 ,不 同 层次 可 能 考虑 问题 的 精度 不 同 .面向 的 用 户 群 不 同 。 对 一 些 
用 户 来 说 ,可 能 会 觉得 支持 度 太 小 ,产生 过 多 的 不 感 兴趣 的 规则 ;但 对 另外 一 些 用 户 而 言 , 又 
会 认为 支持 度 太 大 ,丢失 过 多 的 有 用 信息 。 

(2) 不 同 层次 使 用 不 同 的 最 小 支持 度 。 

每 个 层次 都 有 自己 的 最 小 支持 度 。 较 低 的 层次 最 小 支持 度 相 对 较 小 , 较 高 层次 的 最 小 
支持 度 相 对 较 大 。 例 如 在 图 4. 6 中 ,computer 的 后 代 节 点 ( 即 laptop computer 和 desktop 
computer) 将 不 被 考察 ,因为 computer 不 是 频繁 的 。 
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图 4.6 具有 递减 最 小 支持 度 的 多 层 关联 规则 挖掘 


这 种 方法 增加 了 挖掘 的 灵活 性 ,但 也 留 下 了 许多 相关 问题 需要 解决 。 首 先 , 不 同 层次 间 
的 支持 度 应 该 有 所 关联 ,只 有 正确 地 刻画 这 种 联系 或 找到 转换 方法 才能 使 生成 的 关联 规则 
相对 客观 。 另 外 ,由 于 具有 不 同 的 支持 度 , 层 间 的 关联 规则 挖掘 是 必须 解决 的 问题 。 例 如 ， 
有 人 提出 层 间 关联 规则 应 该 根据 较 低层 次 的 最 小 支持 度 来 定 。 


2. 对 于 多 层次 关联 规则 挖掘 的 策略 问题 ,可 以 根据 应 用 特点 ,采用 灵活 的 方法 来 完成 


具体 来 说 ,一 般 采用 以 下 三 种 方法 : 

a) 自 上 而 下 的 方法 。 

先 找 顶 层 的 规则 ,再 找 它 的 下 一 层 规则 ,如 此 逐 层 自 上 而 下 。 不 同 层次 的 支持 度 可 以 一 
样 ,也 可 以 根据 上 层 的 支持 度 动态 生成 下 层 的 支持 度 。 

(2) 自 下 而 上 的 方法 。 

与 自 上 而 下 的 方法 正好 相反 , 先 找 底层 的 规则 ,再 找到 它 的 上 一 层 规则 ,不 同 层 次 的 支 
持 度 也 可 以 动态 生成 。 

(3) 在 一 个 固定 层次 上 的 挖掘 。 

用 户 可 以 根据 情况 ,在 一 个 固定 层次 上 进行 挖掘 ,如 果 需 要 查看 其 他 层次 的 数据 ,可 以 
通过 上 卷 或 下 钻 等 操作 来 获取 相应 数据 。 

另外 ,多 层次 关联 规则 可 能 产生 宛 余 问题 ,有 了 时 需要 考虑 规则 部 分 的 包含 问题 ,规则 的 
合并 问题 等 。 因 此 ,对 于 多 层次 关联 挖掘 需要 根据 具体 情况 确定 合适 的 挖掘 策略 。 


4.3.2 挖掘 多 维 关联 规则 


在 OLAP 中 挖 扎 多维、 多 层 关 联 规则 是 一 个 很 自然 的 过 程 。 因 为 OLAP 本 身 的 基础 就 
是 一 个 多 维 多 层 分 析 的 工具 。 在 数据 挖掘 技术 引入 之 前 ,OLAP 只 能 做 一 些 简单 的 统计 。 
有 了 数据 挖掘 技术 ,就 可 以 挖掘 深层 次 的 关联 规则 等 知识 。 

多 维 关联 规则 挖掘 一 般 分 为 维 内 的 关联 规则 和 混合 维 关联 规则 。 
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1. 维 内 的 关联 规则 


对 于 布尔 关联 规则 IBM desktop computer>Sony b/w printer, 它 也 可 以 写成 buys(X， 
"IBM desktop computer") 字 buys(X,"Sony b/w printer") ,其 中 X 是 变量 ,代表 购买 的 顾 
客 。 这 样 , 称 此 规则 为 单 维 或 维 内 关联 规则 ,因为 它们 包含 单个 不 同 谓词 ( 即 buys) 的 多 次 
出 现 ( 即 谓词 在 规则 中 出 现 多 次 )。 正 如 在 本 章 的 前 几 节 看 到 的 ,这 种 规则 通常 由 事务 数据 
挖掘 。 


2. 混合 维 关联 规则 


这 类 规则 允许 同一 个 维 重复 出 现 。 例 如 age(X,"20 ...29") A occupation(X, "student") A 
buys(X,"Sony b/w printer")=>buys(X, "laptop") ,这 种 涉及 两 个 或 多 个 维 或 谓词 的 关联 
规则 称 为 多 维 关 联 规则 。 这 类 规则 更 具有 普遍 适应 性 ,因此 在 近年 来 的 研究 中 得 到 了 广泛 
的 应 用 。 


4.3.3 挖掘 量化 关联 规则 


量化 关联 规则 是 多 维 关联 规则 ,其 中 数值 属性 动态 离散 化 ,以 满足 某 种 挖掘 标准 ,如 最 
大 化 挖掘 规则 的 置信 度 或 紧凑 性 。 在 本 小 节 , 将 特别 关注 如 何 挖掘 左 部 有 两 个 量化 属性 , 右 
部 有 一 个 分 类 属性 的 量化 关联 规则 ,例如 A gant 人 Aan 过 Ac。 

HEP , A quant 和 Au 是 在 量化 属性 的 区 间 ( 其 中 区 间 动 态 地 确定 ) 上 测试 ,As 测 试 任务 
相关 数据 的 分 类 属性 。 这 种 规则 称 作 2- 维 量化 关联 规则 ,因为 它们 包含 两 个 量化 维 。 例 
如 ,假定 像 age 和 income 这 样 的 量化 属性 对 于 这 样 的 顾客 喜欢 什么 类 型 的 电视 机 之 间 的 关 
联 关系 。 这 种 2-D 量化 关联 规则 的 一 个 例子 是 age(X,"30...39") A income(X, "42K... 
48K")=> buys(X, "high resolution TV"). 

“如 何 找 出 这 种 规则 ?” 看 看 系统 ARCS(Association Rule Clustering System ,关联 规则 
聚 类 系统 ) 使 用 的 方法 ,其 思想 源 于 图 形 处 理 。 本 质 上 ,该 方法 将 量化 属性 对 映射 到 满足 给 
定 分 类 属性 条 件 的 2-D 栅 格 上 。 然 后 搜索 栅 格 点 的 聚 类 ,由 此 产生 关联 规则 。 下 面 是 
ARCS 涉及 的 步骤 : 分 箱 。 量 化 属性 可 能 具有 很 宽 的 取 值 范围 ,定义 它们 的 域 。 如 果 以 age 
和 income 为 轴 , 每 个 age 的 可 能 值 在 一 个 轴 上 赋予 一 个 唯一 的 位 置 ; 类 似 地 ,每 个 income 
的 可 能 值 在 另 一 个 轴 上 赋予 一 个 唯一 的 位 置 。 想 象 2-D 栅 格 会 有 多 么 大 。 为 了 使 得 栅 格 压 
缩 到 可 管理 的 尺寸 ,将 量化 属性 的 范围 划分 为 区 间 。 这 些 区 间 是 动态 的 ,在 挖掘 期 间 它 们 可 
能 进一步 合并 。 这 种 划分 过 程 称 作 分 箱 , 即 区 间 被 看 作 * 箱 ”。 三 种 常用 的 分 箱 策略 是 : 

(1) 等 宽 分 箱 。 每 个 箱 的 区 间 长 度 相 同 。 

(2) 等 深 分 箱 。 每 个 箱 赋 予 相同 个 数 的 元 组 。 

(3) 基于 同 质 的 分 箱 。 箱 的 大 小 这 样 确定 ,使 得 每 个 箱 中 的 元 组 具有 一 致 分 布 。 

在 ARCS 中 使 用 等 宽 分 箱 , 每 个 量化 属性 的 箱 尺寸 由 用 户 输入 。 对 于 涉及 两 个 量化 属 
性 的 每 种 可 能 的 箱 组 合 , 创 建 一 个 2-D 数组 。 每 个 数组 单元 存放 规则 右 部 分 类 属性 每 个 可 
能 类 的 对 应 计数 分 布 。 通 过 创建 这 种 数据 结构 ,任务 相关 的 数据 只 需要 扫描 一 次 。 基 于 相 
同 的 两 个 量化 属性 ,同样 的 2-D 数组 可 以 用 于 产生 分 类 属性 的 任何 值 规 则 。 

(1) 找 频 繁 谓词 集 。 一 旦 包含 每 个 分 类 计数 分 布 的 2-D 数组 设置 好 ,就 可 以 扫描 它 , 以 
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找 出 也 满足 最 小 置信 度 的 频繁 谓词 集 ( 满 足 最 小 支持 度 ) 。 然 后 使 用 规则 产生 算法 ,由 这 些 
谓词 集 产生 关联 规则 。 

(2) 关联 规则 聚 类 。 将 上 一 步 得 到 的 强 关联 规则 映射 到 2-D 栅 格 上 。 图 4.7 显示 给 定 
量化 属性 age 和 income, 预 测 规则 右 端 条 件 buys(X."high resolution TV") 的 2-D 量化 关 
联 规则 。 得 到 对 应 规则 : 


age (%,34) 人 income (X,"31K...40K") > buys (X, "high resolution TV") 

age %,35) 人 income (x, "SIK...40K") > buys (X, "high resolution TV") 

age (X,34) A income (X,"41K...50K") => buys (X, "high resolution TV") 

age (X,35) 人 income (x,"41K...50K") > buys (X, "high resolution TV") 

能 找到 一 个 更 简单 的 规则 蔡 换 上 面 4 个 规则 吗 ? 注意 ,这 些 规则 都 相当 “接近 ”, 在 栅 格 
中 形成 聚 类 。 的 确 ,这 些 规则 可 以 组 合 或 “ 聚 " 在 一 起 ,形成 下 面 的 规则 , 它 更 简单 ,将 上 面 4 
个 规则 汇总 在 一 起 ,并 取代 它们 。 


age (X "34...35") 人 inoome (x, "31K...50K")=> buys (X, "high resolution TV") 


TIK…8OK | | 
61K…70K | | 
收 SIK…6OK 
入 41K…50K 
31K…40K 
21K.…30K 
<=20K | | 
年 龄 


32 33 34 35 36 37 38 


图 4.7 购买 高 分 辩 率 电视 机 的 顾客 元 组 的 2-D 栅 格 


基于 栅 格 的 技术 假定 初始 关联 规则 可 以 聚集 到 矩形 区 域 。 在 进行 聚集 前 ,可 以 使 用 平 
滑 技 术 ,帮助 消除 数据 中 的 噪音 和 奇异 值 。 和 矩形 聚 类 可 能 过 分 简化 数据 。 之 前 已 经 提出 了 
一 些 蔡 换 技 术 ,基于 其 他 形状 的 区 域 ,能 够 更 适合 数据 ,但 需要 更 大 的 计算 量 。 目 前 的 研究 
已 经 提出 了 一 种 非 基 于 栅 格 的 技术 ,后 来 又 提出 了 更 一 般 化 的 关联 规则 生成 算法 ,其 中 任意 
个 数 的 量化 属性 和 分 类 属性 可 以 出 现在 规则 的 两 端 。 在 这 种 技术 下 ,量化 属性 使 用 等 深 分 
箱 动态 划分 ,划分 根据 部 分 完全 性 度量 组 合 ,该 度量 量化 由 于 划分 而 导致 部 分 信息 丢失 。 


4.4 从 关联 分 析 到 相关 分 析 


“在 挖掘 了 关联 规则 之 后 ,数据 挖掘 系统 如 何 指出 哪些 规则 是 用 户 感 兴趣 的 ?” 这 是 一 个 
非常 重要 的 问题 ,而 当前 的 大 部 分 关联 规则 的 挖掘 算法 都 使 用 支持 度 -置信 度 框 架 。 尽 管 使 
用 最 小 支持 度 和 置信 度 阔 值 排除 了 一 些 无 兴趣 的 规则 探查 ,但 是 仍然 会 产生 一 些 对 用 户 来 
说 不 感 兴趣 的 规则 。 同 时 , 当 使 用 较 低 的 支持 度 阀 值 去 挖掘 长 模式 时 ,这 种 情况 则 变 得 更 加 
突出 。 这 也 是 关联 规则 挖掘 一 直 难 以 成 功 应 用 的 瓶颈 之 一 。 

本 节 首 先 介绍 相关 性 分 析 (Correlation Analysis) ,再 看 看 即便 是 强 关联 规则 为 何 也 可 
能 是 无 价值 的 并 可 能 产生 误导 ,最 后 讨论 基于 统计 独立 性 和 相关 分 析 的 其 他 度量 来 补充 支 
持 度 -置信 度 框架 。 

= 79% 


4.4.1 相关 分 析 


相关 分 析 是 研究 现象 之 间 是 否 存在 某 种 依存 关系 ,并 对 具有 依存 关系 的 现象 探讨 其 相 
关 方 向 以 及 相关 程度 ,是 研究 随机 变量 之 间 的 相关 关系 的 一 种 统计 方法 。 相 关 关 系 是 一 种 
非 确定 性 的 关系 。 例 如 ,以 X 和 YY 分 别 记录 一 个 人 的 身高 和 体重 ,或 分 别 记录 每 公顷 施肥 
量 与 每 公顷 小 麦 产 量 , 则 XX 与 Y 显然 有 关系 ,而 又 没有 确切 到 可 由 其 中 的 一 个 精确 地 决定 
另 一 个 的 程度 ,这 就 是 相关 关系 。 

在 相关 分 析 中 ,根据 X 和 Y 的 关系 ,分 为 如 下 几 种 情况 : 

(1) 正 相 关 。 如 果 X 与 了 变化 的 方向 一 致 ,如 身高 与 体重 的 关系 。 

(2) HIK., WR X 与 了 变化 的 方向 相反 ,如 吸烟 与 肺 功 能 的 关系 。 

G) 不 相关 。 如 果 X 和 YY 之 前 没有 明确 的 函数 关系 。 

相应 的 ,对 于 相关 度 的 计算 方法 也 会 根据 情况 的 不 同 有 所 区 别 , 具 体 来 说 ,计算 相关 度 
的 方法 主要 有 三 种 : 

(1) Pearson 积 差 相关 系数 : 对 定 距 连续 变量 的 数据 进行 计算 。 

(2) Spearman 和 Kendall 相关 系数 : 对 分 类 变量 的 数据 或 变量 值 的 分 布 明 显 非 正 态 或 
分 布 不 明 时 ,在 计算 过 程 中 需要 对 离散 数据 进行 排序 或 对 定 距 变量 值 求 秩 。 


4.4.2 强 规则 不 一 定 是 有 价值 的 


规则 是 否 有 价值 可 以 主观 或 客观 地 评估 。 最 终 只 有 用 户 能 够 确定 规则 是 否 有 价值 ,并 
且 这 种 判断 是 非常 主观 的 ,会 因为 用 户 的 不 同 而 有 不 同 的 评判 结果 。 然 而 ,根据 数据 “背后 ” 
的 统计 ,客观 兴趣 度量 可 以 用 于 清除 无 价值 的 规则 ,而 不 向 用 户 提供 。 

下 面 将 通过 一 个 例子 来 说 明 有 些 强 关 联 规则 并 非 是 有 价值 的 。 

例 4-6 ”一 个 误导 的 强 关 联 规则 。 假 设 有 一 个 电子 产品 商店 ,涉及 计算 机 游戏 和 录像 。 
设 事件 computer game 表示 包含 计算 机 游戏 的 事务 ,而 video 表示 包含 录像 的 事务 。 数 据 
库 中 一 共 包 含 10 000 个 事务 ,数据 显示 6000 个 事务 包含 计算 机 游戏 ,7500 个 事务 包含 录 
像 ,而 4000 个 事务 包含 计算 机 游戏 和 录像 。 

假定 发 现 关 联 规则 的 数据 挖掘 程序 在 该 数据 上 运行 ,使 用 最 小 支持 度 30%, 最 小 置信 
JE 60% 。 将 发 现下 面 的 关联 规则 : 


buys (X, "camputer games")=> buys (X,"videos")  [support= 40% ,confidence= 66% ] 


在 上 述 规则 中 ,因为 其 支持 度 (support) = 4000/10 000= 40% ,置信 度 (confidence) = 
4000/6000= 66% ,它们 分 别 满足 最 小 支持 度 和 最 小 置信 度 冰 值 ,因而 是 强 关联 规则 。 然 而 ， 
上 述 规则 却 是 误导 的 ,因为 购买 录像 的 可 能 性 是 75%, 比 66% 还 大 。 事 实 上 ,计算 机 游戏 和 
录像 是 负 相 关 的 , 买 一 种 实际 上 减少 了 买 男 一 种 的 可 能 性 。 不 完全 理解 这 种 现象 ,可 能 根据 
导出 的 规则 做 出 不 明智 的 决定 。 

上 面 的 例子 也 表明 规则 ASB 的 置信 度 有 一 定 的 欺骗 性 , 它 只 是 给 定 A 和 B 的 条 件 概 
率 估计 ,并 不 度量 A 和 B 之 间 蕴 涵 的 实际 强度 。 因 此 ,寻求 支持 度 -置信 度 框 架 的 替代 ,对 
挖掘 有 趣 的 数据 联系 可 能 是 有 用 的 。 
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4.4.3 挖掘 高 度 关联 的 模式 


正如 在 上 面 看 到 的 ,支持 度 和 置信 度 不 足以 过 滤 掉 无 趣 的 关联 规则 。 为 了 处 理 这 个 问 
题 ,可 以 使 用 相关 度量 来 扩充 关联 规则 的 支持 度 -置信 度 框架 。 即 如 下 形式 的 相关 规则 : 


EB [support, confidence, correlation] 


也 就 是 说 ,相关 规则 不 仅 用 支持 度 和 置信 度 度量 ,而且 还 用 项 集 A 和 B 之 间 的 相关 度量 。 

项 集 A 的 出 现 独立 于 项 集 B 的 出 现 , 如 果 P(AUB) = P(A)P(B); 和 否则 ,项 集 A 和 B 
是 依赖 的 和 相关 的 。 这 个 定义 容易 推广 到 多 于 两 个 项 集 。A 和 B 的 出 现 之 间 的 相关 性 通 
过 计算 下 式 度量 : 


_P(AUB) 
ECAJP(CB) 


如 果 式 (4-3) 的 值 小 于 1, 则 A 的 出 现 和 B 的 出 现 是 负 相 关 的 。 如 果 结 果 值 大 于 1, 则 
A 和 B 是 正 相关 的 ,意味 着 每 一 个 的 出 现 都 蕴涵 另 一 个 的 出 现 。 如 果 结 果 值 等 于 1, 则 A 
和 B 是 独立 的 ,它们 之 间 没 有 相关 性 。 

式 (4-3) 等 价 于 P(B|A)/P(B) 3} confidence(A 过 >B)/support(B), 也 称 为 关联 (或 相 
关 ) 规 则 ASB 的 提升 度 。 换 句 话说 , 它 评 估 一 个 事务 出 现 提升 男 一 个 事务 的 程度 。 例 如 ， 
如 果 A 对 应 于 计算 机 游戏 的 销售 ,B 对 应 录像 的 销售 , 则 给 定 当 前 行情 ,游戏 的 销售 将 为 录 
像 的 销售 减少 做 出 贡 

再 看 例 4-6 计算 机 游戏 和 录像 。 

例 4-6 为 了 帮助 过 滤 掉 形 如 ASB 的 误导 的 “ 强 ” 关 联 , 需 要 研究 两 个 项 集 A 和 B 怎样 
才 是 相关 的 。 设 game 表 示例 4-6 中 不 包含 计算 机 游戏 的 事务 ， eol 
务 。 事 务 可 以 汇总 在 相依 表 中 。 例 4-6 数据 的 相依 表 如 表 4. 6 所 示 。 由 该 表 可 以 看 出 
买 计算 机 游戏 的 概率 P({game}) = 0. 60, 购 买 录像 的 概率 P({video)) 王 0.75， — 
的 概率 P({ game, video}) = 0. 40. #8 Hi sk (4-3). P ({ game. video})/(P ({ game}) 
P({video}))=0. 40/(0. 75 X0. 60) =0. 89。 由 于 该 值 明显 比 1 Jy. {game} All { video} Z [al 
存在 负 相关 。 分 子 是 顾客 购买 二 者 的 可 能 性 ,而 分 母 是 如 果 两 个 购买 是 完全 独立 的 可 能 性 。 
这 种 负 相关 不 能 被 支持 度 -置信 度 框架 识别 。 


R46 汇总 与 购买 计算 机 游戏 和 录像 事务 的 相依 表 


lift(A,B) (4-3) 


game game > row 
video 4000 3500 7500 
video 2000 500 2500 
» col 6000 4000 10000 


另外 ,还 可 以 利用 另外 两 种 相关 度 度量 方法 : 全 置信 度 Call confidence) #l At 3% 


(cosine) 。 


对 于 给 定 的 项 集 XS {i sistin) X 的 全 置信 和 度 定义 为 : 


sup(X) o sup(X) 


ahaha ae = max_item_sup(X) = max{sup(i;) | Vi; € X} 


(4-4) 


。81 。 


其 中 ,max{sup(ij)|Vii€X} 是 X 中 所 有 项 的 最 大 (单个 ) 项 支持 度 ,因此 称 作 项 集 X 的 最 
大 项 支持 度 。X 的 全 置信 和 度 是 规则 集 i; 一 Xi 的 最 小 置信 和 度 , 其 中 i eX. 
给 定 两 个 项 集 A 和 B,A 和 B 的 余弦 度量 定义 为 : 
P(A U B) 
JPCAYP(B) 
余弦 度量 可 以 看 作 是 调和 的 提升 度 度量 : 两 个 公式 类 似 , 不 同 之 处 在 于 余弦 对 A M B 
的 概率 乘积 取 平方 根 。 然 而 ,一 个 重要 的 区 别 是 : 由 于 通过 取 平 方 根 , 余 弦 值 仅 受到 A,B, 
AUB 的 影响 ,而 不 受 事务 总 个 数 的 影响 。 


4.5 基于 约束 的 频繁 模式 挖掘 


数据 挖掘 过 程 可 以 从 给 定 的 数据 集中 发 现 数 以 千 计 的 规则 ,其 中 大 部 分 规则 与 用 户 不 
相关 或 用 户 不 感 兴趣 。 通 常用 户 具有 很 好 的 判断 能 力 ,知道 沿 什么 方向 挖掘 可 能 导致 有 价 
值 的 模式 ,知道 他 们 想 要 发 现 什么 形式 的 规则 。 因 此 ,一 种 好 的 启发 式 方法 是 让 用 户 说 明 他 
们 的 直觉 或 期 望 作为 限制 搜索 空间 的 约束 条 件 。 这 种 策略 称 作 基于 约束 的 挖掘 
(Constrained-Based Mining). XE ARE fA: 

(1) 知识 类 型 限制 。 指 定 要 挖掘 的 知识 类 型 ,如 关联 规则 。 

(2) 数据 限制 。 指 定 任务 相关 的 数据 集 。 

G) 维 / 层 限制 。 指 定 所 用 的 维 或 概念 分 层 结构 的 层 。 

(4) 兴趣 度 限 制 。 指 定 规则 兴趣 度 阔 值 或 统计 度量 ,如 支持 度 和 置信 度 。 

(5) 规则 限制 。 指 定 要 挖掘 的 规则 形式 。 这 种 限制 可 以 用 元 规则 (规则 模板 表示, 如 
可 以 出 现在 规则 前 项 或 后 项 中 谓词 的 最 大 或 最 小 个 数 , 或 属性 .属性 值 和 /或 聚集 之 间 的 
联系 。 

上 面 的 前 4 种 限制 已 在 本 章 的 前 面 讨论 ,本 节 讨 论 使 用 规则 限制 对 挖掘 任务 聚焦 。 这 
种 基于 约束 的 挖掘 允许 用 户 根据 他 们 关注 的 目标 说 明 要 挖掘 的 规则 ,因此 使 得 数据 挖掘 过 
程 更 有 功效 。 此 外 ,可 以 使 用 复杂 的 挖掘 查询 优化 程序 ,以 便利 用 用 户 设置 的 限制 ,从 而 使 
得 挖掘 过 程 更 有 效率 。 基 于 限制 的 挖掘 促进 交互 式 探查 挖掘 与 分 析 。 在 4. 5. 1 节 将 讨论 元 
规则 制导 的 挖掘 ,那里 用 规则 模板 的 形式 说 明了 语法 规则 限制 。4. 5. 2 节 进 一 步 讨 论 基 于 
约束 条 件 的 规则 挖掘 方法 ,指定 集合 / 子 集 联系 .变量 的 常量 初始 化 和 聚集 函数 。 


4.5.1 关联 规则 的 元 规则 制导 挖掘 


“元 规则 有 什么 作用 ?” 元 规则 使 得 用 户 可 以 说 明 他 们 感 兴趣 的 规则 的 语法 形式 。 规 则 
的 形式 可 以 作为 限制 ,帮助 提高 挖掘 过 程 的 性 能 。 元 规则 可 以 根据 分 析 者 的 经 验 、 期 望 或 对 
数据 的 直觉 ,或 者 根据 数据 库 模式 自动 产生 。 

BI 4-7 依然 采用 电子 产品 商店 的 例子 ,假设 你 是 商店 的 市 场 分 析 员 ,数据库 中 已 经 保 
存 描述 顾客 的 数据 (如 顾客 的 年 龄 .地 址 和 信誉 度 等 ) ,以 及 顾客 事务 的 列表 。 你 需要 对 找 出 
顾客 的 特点 和 他 购买 的 商品 之 间 的 关联 关系 感 兴趣 。 然 而 ,不 是 要 找 出 反映 这 种 联系 的 所 
有 关联 规则 ,只 需要 了 解 什么 样 的 顾客 对 教育 软件 的 销售 感 兴趣 。 可 以 使 用 一 个 元 规则 来 
说 明 你 感 兴趣 的 规则 形式 。 这 种 元 规则 的 一 个 例子 是 

> 2 


cos(A,B) = (4-5) 


Pi(X,Y) A P.(X.W)=buys(X."education software") 
Heh, P, 和 Pa 是 谓词 变量 ,在 挖掘 过 程 中 被 示例 为 给 定数 据 库 的 属性 ;X 是 变量 ,代表 顾 
客 ;Y 和 W 分 别 取 赋 给 Pi 和 P; 的 属性 值 。 典 型 地 ,用 户 要 说 明 一 个 示例 Pi 和 P: 需 考虑 的 
属性 列表 ;否则 ,将 使 用 缺 省 的 属性 集 。 

一 般 地 ,元 规则 形成 一 个 关于 用 户 希 望 探 查 或 证 实 的 、 他 感 兴趣 的 联系 的 假定 。 然 后 ， 
挖掘 系统 可 以 寻找 与 给 定 元 规则 匹配 的 规则 。 例 如 ,下 面 的 规则 匹配 或 遵守 上 面 描述 的 元 
规则 。 

age(X,， "30…39") A income(X."41++*60K")=>buys(X."education software") 

“元 规则 如 何 用 于 指导 挖掘 过 程 ?进一步 考察 这 个 问题 。 假 定 希 望 挖掘 维 间 关 联 规则 ， 

如 上 例 所 示 。 元 规则 是 形 如 

Pi A P2 A MP NG A AQ, 
的 规则 模板 。 其 中 ,P;(i 二 1,2,…,/) 和 Q(j 二 1,2,…,7) 是 示例 谓词 或 谓词 变量 。 设 元 规 
则 中 谓词 的 个 数 为 p= 二/ 十 r+。 为 找 出 满足 该 模板 的 维 间 关 联 规则 ， 

(1) 需要 找 出 所 有 的 频繁 p- 谓 词 集 Lp。 

(2) 还 必须 有 Lp 中 的 1- 谓词 子 集 的 支持 度 或 计数 ,以 计算 由 Lp 导出 的 规则 置信 和 度 。 

这 是 挖掘 多 维 关联 规则 的 典型 情况 ,在 前 面 的 章节 已 介绍 。 在 4. 5.2 中 将 介绍 这 些 技 
术 的 扩展 方法 ,从 而 导出 元 规则 指导 挖掘 的 有 效 方法 。 


4.5.2 基于 约束 的 模式 生成 : 模式 空间 剪 枝 和 数据 空间 剪 枝 


规则 约束 说 明 所 挖掘 规则 中 变量 的 期 望 集合 / 子 集 联系 、 变 量 的 常量 初始 化 和 聚集 函 
数 。 这 些 可 以 与 元 规则 指导 的 挖掘 一 起 使 用 ,或 作为 它 的 替代 。 在 本 节 中 ,通过 考察 规则 限 
制 ,看 看 怎样 使 用 它们 ,使 得 挖掘 过 程 更 有 效 。 研 究 下 面 一 个 例子 ,其 中 规则 限制 用 于 挖掘 
混合 维 关联 规则 。 

例 4-8 进一步 考察 规则 约束 制导 的 挖掘 。 假 定 电 子 产品 商店 里 有 一 个 销售 多 维 数据 
库 , 包 含 以 下 相互 关联 的 关系 : 


sales (custarer_name, item name, transaction id) 
lives (custarer_name, region, city) 


item(item name, category, price) 

transaction (transaction id, day, month, year) 
其 中 ,lives item 和 transaction 是 三 个 维 表 , 通 过 三 个 关键 字 customer_name,item_name 和 
transaction_id 分 别 链接 到 事实 表 sales。 

关联 挖掘 查询 是 “ 找 出 这 样 的 销售 ,对 于 Vancouver 的 2010 年 的 顾客 ,什么 样 的 便宜 商 
品 ( 价 格 和 低 于 100 美元 ) 能 够 促进 同类 价 高 商品 (最 低 价 为 500 美元 ) 的 销售 ?” 该 查询 可 以 
用 DMQL 数据 挖掘 查询 语言 表达 如 下 。 为 方便 讨论 ,查询 的 每 一 行 已 经 编号 。 

(1) mine associations as 

(2) lives(C,_, "vancowver") 人 salest (C, {I}, {S})> salest (C, {J}, {T} 

(3) fram sales 

(4) where S.year= 2010 and T. year= 2010 and I.category= J.category 

(5) group by C,I.category 
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(6) having sum(I.prics)< 100 and min (J-price)> 500 

(7) with support threshold= 1% 

(8) with confidence threshold= 50% 

在 讨论 规则 限制 之 前 ,再 仔细 看 看 上 面 的 查询 。 第 一 行 是 知识 类 型 限制 ,说 明 要 发 现 关 
联 模式 。 第 二 行 说 明了 元 规则 。 

数据 限制 在 元 规则 的 lives(_,_,"vancouver") 部 分 指定 ( 即 住 在 Vancouver 的 所 有 顾 
客 ) ,并 在 第 三 行 指出 只 有 事实 表 sales 需要 显示 引用 。 在 多 维 数据 库 中 ,变量 的 引用 被 简 
化 。 例 如 ,S. year=1999 等 价 于 SQL 语句 from sales S, transaction R where S. transaction 
_ID =R. transaction_ID and R. year = 1999。 所 有 三 个 维 (lives item 和 transaction) 都 使 
用 。 层 限制 如 下 : 对 于 lives, 只 考虑 customer_name, 因 为 只 有 city 二 "Vancouver" 在 选择 
中 使 用 ; 对 于 item, 只 考虑 item _name 和 category. 因为 它们 在 查询 中 使 用 ; 对 于 
transaction, 只 考虑 transaction_ID, 因 为 day 和 month 未 被 引用 ,而 year 只 在 选择 中 使 用 。 

规则 限制 包含 在 where( 第 四 行 ) 和 having( 第 六 行 ) 子 句 的 大 部 分 ,如 S. year = 2010、 
T. year= 2010\1. category =J. category\sum(I. price)<100 和 min(J. price) 宇 500。 最 后 ， 
行 7 和 行 8 说 明了 两 个 兴趣 度 限 制 ( 即 阔 值 ) : 1% 的 最 小 支持 度 和 50% 的 最 小 置信 和 度 。 

维 / 层 约束 和 兴趣 约束 可 以 在 挖掘 后 使 用 ,以 便 过 滤 发 现 的 规则 。 尽 管 在 挖掘 中 使 用 它 
们 帮助 对 搜索 空间 进行 剪 枝 一 般 更 有 效 .开销 更 小 ,但 在 本 节 中 ,重点 放 在 规则 约束 上 。 

对 于 频繁 项 集 挖掘 ,发 现 的 关联 规则 可 能 具有 如 下 5 类 属性 : 反 单调 的 .单调 的 、 简 洁 
的 .可 变 的 ,不 可 变 的 。 对 于 每 一 类 ,将 使 用 一 个 例子 展示 它 的 特性 ,并 解释 如 何 将 这 类 限制 
用 在 挖掘 过 程 中 。 

a) 反 单 调 性 。 考 虑 规则 限制 sum(I. price) 二 100。 假 定 使 用 类 似 于 Apriori 的 方法 
GEIB) ,对 于 每 次 迭代 飞 , 探 查 k- 项 集 。 其 价格 和 不 小 于 100 的 任何 项 集 都 可 以 由 搜索 空间 
剪 去 ,因为 向 该 项 集中 进一步 添加 项 将 会 使 它 更 贵 ,因此 不 可 能 满足 限制 。 换 句 话 说, 如果 
一 个 项 集 不 满足 该 规则 限制 , 它 的 任何 超 集 也 不 可 能 满足 该 规则 限制 。 如 果 一 个 规则 具有 
这 一 性 质 , 则 称 它 是 反 单 调 的 。 根 据 反 单调 规则 限制 进行 剪 枝 可 以 用 于 类 Apriori 算法 的 
每 一 次 迭代 ,以 帮助 提高 整个 挖掘 过 程 的 性 能 ,从 而 保证 数据 挖掘 任务 的 完全 性 。 

(2) 单调 性 。 考 虑 规则 限制 是 sum(I. price) 三 100, 则 基于 限制 的 处 理 方法 将 很 不 相 
同 。 如 果 项 集 I 满 足 该 限制 , 即 集合 中 的 单价 和 不 少 于 100 ,进一步 添 加 更 多 的 项 到 TO 
加 价格 ,并 且 总 是 满足 该 限制 。 因 此 ,在 项 集 I 上 进一步 检查 该 限制 是 多 余 的 。 换 言 之 ,如 
果 一 个 项 集 满 足 这 个 规则 限制 , 它 的 所 有 超 集 也 满足 。 如 果 一 个 规则 具有 这 一 性 质 , 则 称 它 
是 单调 的 。 类 似 的 规则 单调 限制 包括 mind. price) <10, count (1) >10 等 。 

(3) 简洁 性 约束 。 对 于 这 类 限制 ,可 以 列 出 并 且 仅 仅 列 出 所 有 确保 满足 该 限制 的 集合 。 
即 如 果 一 个 规则 限制 是 简洁 的 ,可 以 直接 精确 地 产生 满足 它 的 集合 ,甚至 在 支持 计数 开始 之 
前 。 这 避免 了 产生 -测试 方式 的 过 大 开销 。 换 言 之 ,这 种 限制 是 计数 前 可 剪 枝 的 。 例 如 ， 
例 4-8 中 的 限制 min(J. price) 500 是 简洁 的 ,这 是 因为 能 够 准确 无 误 地 产生 满足 该 限制 的 
所 有 项 集 。 

(4) 可 转变 的 约束 。 有 些 限 制 不 属于 以 上 三 类 。 然 而 ,如 果 项 集中 的 项 以 特定 的 次 序 
排列 , 则 对 于 频繁 项 集 挖掘 过 程 ,限制 可 能 成 为 单调 的 或 反 单 调 的 。 例 如 ,限制 avg C. 
price) 既 不 是 反 单 调 的 ,也 不 是 单调 的 。 然 而 ,如 果 事 务 中 的 项 以 单价 的 递增 序 添加 到 项 集 

po as 


中 , 则 该 限制 就 成 了 反 单 调 的 ,因为 如 果 项 集 工 违反 了 该 限制 ( 即 平均 单价 大 于 100 美元 )， 
更 贵 的 商品 进一步 添加 到 该 项 集中 不 会 使 它 满足 该 限制 。 类 似 地 ,如 果 事 务 中 的 项 以 单价 
的 递减 序 添 加 到 项 集中 , 则 该 限制 就 成 了 单调 的 。 

(5) 不 可 转变 的 约束 。 注 意 , 以 上 讨论 并 不 意味 着 每 种 限制 都 是 可 变 的 。 例 如 ,sum 
(S) Ov 不 是 可 变 的 ,其 中 9€ {三 ,三 } 并 且 S 中 的 元 素 可 以 是 任意 实数 。 


4.6 小 结 


本 章 首先 重点 讨论 了 关联 规则 挖掘 的 基本 概念 ,在 此 基础 上 进一步 介绍 了 关联 规则 的 
类 型 。 针 对 关联 规则 的 基本 概念 ,讨论 了 基于 Apriori 算法 的 关联 规则 挖掘 方法 。 为 了 克 
服 Apriori 算法 在 复杂 度 和 效率 方面 的 不 足 ,本章 进一步 探讨 了 基于 FP-tree 的 频繁 模式 增 
长 算法 ,用 于 关联 规则 的 挖掘 。 在 介绍 了 基本 的 频繁 模式 挖掘 算法 之 后 ,本 章 又 进一步 深入 
讨论 了 不 同类 型 的 关联 规则 挖掘 方面 的 相关 内 容 , 并 介绍 了 基于 约束 的 关联 规则 挖掘 算法 。 
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第 5 章 分 类 和 预测 


lg 


5.1 前 


数据 库 数据 仓库 或 者 其 他 信息 库 中 蕴藏 着 大 量 知识 ,这 些 知识 可 以 为 商业 ,科研 等 活 
动 的 决策 提供 帮助 。 分 类 和 预测 是 两 种 数据 分 类 形式 ,它们 可 以 用 于 提取 能 够 描述 重要 数 
据 的 集合 或 预测 未 来 数据 趋势 的 模型 。 分 类 用 于 预测 数据 对 象 的 离散 类 别 ;预测 则 用 于 预 
测 数据 对 象 的 连续 取 值 。 分 类 和 预测 方法 已 经 广泛 应 用 于 信贷 审批 .目标 市 场 营 销 、 医 疗 诊 
断 ` 其 诈 检 测 等 方面 。 许 多 有 效 的 分 类 和 预测 算法 也 已 经 被 提出 ,但 是 这 些 算法 大 多 适用 于 
数据 量 比较 小 的 情况 。 最 近 的 数据 挖掘 研究 建立 在 这 些 工作 之 上 ,更 加 侧重 于 处 理 大 规模 
的 数据 ,目前 研究 者 已 经 开发 了 具有 可 伸缩 性 特点 的 分 类 和 预测 技术 。 

本 章 将 介绍 数据 分 类 的 基本 方法 与 技术 。 首 先 ,5. 2 节 讨 论 分 类 和 预测 的 基本 概念 。 
5. 3 节 讨 论 分 类 和 预测 的 数据 预 处 理 问题 以 及 不 同 分 类 方法 的 对 比 和 评估 标准 。 在 接 下 来 
几 节 中 ,将 重点 介绍 具有 代表 性 的 分 类 方法 ,包括 决策 树 方法 、 贝 叶 斯 分 类 方法 、 神 经 网 络 方 
法 ,支持 向 量 机 方法 和 关联 分 类 方法 。 最 后 ,将 讨论 提高 分 类 器 和 预测 器 准确 率 的 一 般 性 
策略 。 


5.2 基本 概念 


5.2.1 什么 是 分 类 


首先 从 一 个 简单 的 例子 来 理解 什么 是 分 类 。 在 国外 大 学 中 ,学 校 需要 根据 教员 目前 的 
等 级 (助理 教授 、 副 教授 .教授 ) 以 及 教龄 等 信息 来 预测 该 教员 是 否 会 有 资格 被 授予 终身 职 
位 。 学 校 希 望 能 够 分 析 已 有 教员 的 数据 ,以 便 帮助 他 们 猜测 具有 某 些 特征 的 教员 是 否 会 被 
授予 终身 职位 。 这 个 数据 分 析 任 务 就 是 一 个 典型 的 分 类 任务 ,需要 利用 已 有 的 数据 构造 一 
个 模型 或 者 分 类 器 来 预测 一 个 未 作 类 别 标记 数据 的 类 别 。 在 该 项 分 类 任务 中 ,类 别 标记 有 
两 个 ,就 是 “是 ?或 “ 否 "。 这 些 类 别 标记 可 以 用 离散 值 来 表示 ,例如 用 1 表示 “是 ”,2 表示 
“和 否 ”。 需 要 注意 的 是 ,这 里 数值 的 * 序 ?没有 意义 ,它们 只 是 用 于 区 别 不 同 的 类 别 。 

分 类 过 程 是 一 个 两 步 的 过 程 , 如 图 5. 1 的 大 学 教员 数据 所 示 。 为 了 方便 解释 ,数据 已 经 
被 简化 ,实际 可 能 会 考虑 更 多 的 属性 。 第 一 步 是 模型 建立 阶段 ,或 者 称 为 训练 阶段 ,这 一 步 
的 目的 是 描述 预先 定义 的 数据 类 或 概念 集 的 分 类 器 。 在 这 一 步 会 使 用 分 类 算法 分 析 已 有 数 
据 ( 训 练 集 ) 来 构造 分 类 器 。 训 练 数据 集 由 一 组 数据 元 组 构成 ,每 个 数据 元 组 假定 已 经 属于 
一 个 事先 指定 的 类 别 ( 由 类 别 标记 属性 确定 )。 

可 以 将 数据 元 组 形式 化 表示 为 n HER YE E XS aatar) ,其 中 (i 二 1,2,…， 
n) 表 示 元 组 在 数据 属性 A; 上 的 度量 。 在 分 类 中 ,数据 元 组 也 被 称 为 样本 ,或 数据 点 。 分 类 
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训练 数据 CE7 分 类 算法 
NAME RANK YEARS |TENURED 分 类 器 
Mike Assistant Prof 3 no 
Mary Assistant Prof 7 yes 
Bill Professor 2 yes 
Jim Associate Prof 7 yes oor 
Dave | Assistant Prof 6 no OR ee 
Anne Associate Prof 3: no THEN tenured='yes' 

图 5.1 大 学 教员 数据 库 示 意图 


过 程 的 第 一 步 也 可 以 看 作 学 习 一 个 映射 函数 y= fr) ,对 于 一 个 
射 函 数 预 测 其 类 别 标 记 。 该 映射 函数 就 是 通过 使 用 训练 数据 集 经 过 学 习 , 最 终 所 得 到 的 模 
型 或 者 称 为 分 类 器 ,该 模型 可 以 表示 为 分 类 规则 ,决策 树 或 数学 公式 等 形式 。 

在 分 类 的 第 二 步 , 需 要 使 用 第 一 步 得 到 的 分 类 器 进行 分 类 ,从 而 评估 分 类 器 的 预测 准确 
率 ,如 图 5. 2 所 示 。 上 有 具体 来 说 ,由 一 组 检验 元 组 和 相关 联 的 类 别 标记 所 组 成 的 测试 数据 集 。 
分 类 器 的 准确 率 是 分 类 器 在 给 定 测试 数据 集 上 正确 分 类 的 检验 元 组 所 占 的 百分比 。 需 要 指 
出 的 是 ,测试 数据 集 是 独立 于 训练 数据 集 的 ,也 就 是 测试 数据 集中 的 数据 元 组 一 般 不 会 用 来 
进行 训练 分 类 器 ,训练 集中 的 数据 元 组 也 一 般 不 会 用 来 评估 分 类 器 准确 率 ,否则 会 发 生 过 分 
拟 合 。 如 果 认 为 分 类 器 的 准确 率 是 可 以 接受 的 , 则 使 用 该 分 类 器 对 类 别 标记 未 知 的 数据 元 


组 进行 分 类 。 


给 定 元 组 X, 可 以 通过 该 映 


(Jeff, Professor, 4) 


NAME | RANK | YEARS | TENURED 
Tom Assistant Prof | 2 no 
Merlisa | Associate Prof | 7 no | 
George | Professor | 5 yes | 
Joseph | Assistant Prof | 7 yes 


在 机 器 学 习 中 ,分 类 也 往往 称 为 有 监督 学 习 ,“ 有 监督 ” 指 的 是 用 于 训练 的 数据 元 组 的 类 
别 标 记 是 已 知 的 ,新 的 数据 基于 训练 数据 集 进行 分 类 。 与 之 对 应 的 是 聚 类 ,在 机 器 学 习 中 称 
为 无 监督 学 习 ，“ 无 监督 指 的 是 用 于 训练 的 数据 元 组 的 类 别 标记 是 未 知 的 ,这 种 学 习 旨 在 


图 5.2 分 类 过 程 示 意图 


识别 隐 伟 在 数据 中 的 类 或 簇 。 
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Tenured? UL 


Yes 


5.2.2 什么 是 预测 


数据 预测 也 是 一 个 两 步 过程 。 与 数据 分 类 不 同 的 是 ,对 于 所 需要 预测 的 属性 值 是 连续 
值 ,而 且 是 有 序 的 ;分 类 所 需要 预测 的 属性 值 是 离散 的 、 无 序 的。 预测 器 与 分 类 器 类 似 ,也 可 
以 看 作 一 个 映射 或 者 函数 y 二 f(x), 其 中 zz 是 输入 元 组 ,输出 y 是 连续 的 或 有 序 的 值 。 与 分 
类 相同 ,测试 数据 集 与 训练 数据 集 在 预测 任务 中 也 应 该 是 独立 的 。 预 测 的 准确 率 通过 对 每 
个 检验 元 组 z+, 利用 y 的 预测 值 与 实际 已 知 值 的 差 来 评估 。 


5.3 关于 分 类 和 预测 的 问题 


这 节 主 要 讨论 分 类 和 预测 中 的 数据 预 处 理 问题 以 及 分 类 方法 的 比较 和 评估 标准 。 
5.3.1 准备 分 类 和 预测 的 数据 


为 了 提高 最 终 分 类 和 预测 的 效果 ,往往 需要 对 分 类 和 预测 所 使 用 的 数据 进行 预 处 理 , 预 
处 理 一 般 可 以 分 为 以 下 三 个 步 又 : 

(1) 数据 清理 。 主 要 目的 是 减少 数据 噪声 和 处 理 缺 失 值 。 尽 管 大 部 分 分 类 算法 都 有 某 
种 处 理 噪声 和 缺失 值 的 机 制 ,但 是 该 步骤 有 助 于 减少 学 习 时 的 混乱 。 

(2) 相关 分 析 。 目 的 是 移 除 数据 中 不 相关 或 元 余 的 属性 。 可 以 利用 相关 分 析 来 识别 任 
意 两 个 给 定 的 属性 是 否 是 统计 相关 的 。 如 果 属 性 A 和 A, 是 强 相 关 的 ,那么 可 能 意味 着 这 
两 个 属性 之 一 可 以 从 进一步 分 析 中 排除 。 数 据 库 中 也 可 能 包括 不 相关 的 属性 ,这 时 可 以 使 
用 属性 子 集 选择 ,在 机 器 学 习 中 也 称 为 特征 选择 , 找 出 属性 的 归 约 子 集 ,使 得 使 用 归 约 后 的 
属性 集 的 结果 概率 分 布 与 所 有 属性 得 到 的 原 分 布 尽 可 能 地 接近 。 因 此 可 以 使 用 相关 分 析 和 
属性 子 集 选 择 ,选择 必要 的 属性 ,这 样 可 以 加 快 分 类 器 训练 速度 ,提高 分 类 器 准确 率 。 

(3) 数据 转换 。 目 的 是 泛 化 或 规范 化 数据 。 在 学 习 阶 段 使 用 神经 网 络 或 涉及 距离 度量 
的 方法 时 ,这 一 点 尤为 重要 。 规 范 化 涉及 将 所 给 属性 的 所 有 值 按 比 例 缩放 ,使 它们 的 值 落 入 
到 较 小 的 指定 区 间 范 围 内 ,如 [一 1.1] 或 [0,1]。 这 种 距离 度量 方法 可 以 避免 受 不 同属 性 不 
同 初 始 值 范围 对 度量 结果 的 影响 。 


5.3.2 评价 分 类 和 预测 方法 


可 以 从 以 下 角度 评价 分 类 和 预测 方法 。 

(1) 准确 率 。 分 类 准确 率 指 分 类 器 预测 新 的 或 先前 未 出 现 过 的 数据 元 组 的 类 别 标记 的 
能 力 。 预 测 器 的 准确 率 指 预测 器 猜测 新 的 或 先前 未 出 现 过 的 数据 元 组 的 预测 属性 值 的 准确 
程度 。 

(2) 速度 。 指 建立 模型 (训练 ) 和 使 用 模型 (分 类 /预测 ) 的 时 间 开 销 。 

G) 鲁 棒 性 。 指 分 类 器 或 预测 器 处 理 噪 声 值 或 缺失 值 数据 的 能 力 。 

(4) 可 伸缩 性 。 指 针对 大 规模 数据 、 分 类 器 或 预测 器 的 处 理 能 力 。 

(5) 可 解释 性 。 指 分 类 器 或 预测 器 所 提供 的 可 理解 和 洞察 的 程度 。 

分 类 器 或 预测 器 在 检测 集 上 的 准确 率 和 错误 率 是 两 个 常用 的 度量 准则 。 检 测 集 上 的 准 
确 率 指 的 是 检测 集中 被 正确 分 类 或 预测 的 元 组 所 占 的 比例 。 相 反 , 检 测 集 上 的 错误 率 指 的 
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是 检测 集中 被 错误 分 类 或 预测 的 元 组 所 占 的 比例 。 

在 实际 分 类 或 预测 问题 中 , 某 些 情况 会 使 用 更 合理 的 方式 来 度量 准确 率 。 下 面 介绍 一 
个 分 析 分 类 器 识别 不 同类 元 组 情况 的 有 用 工具 , 称 为 
混 清 和 矩阵。 两 个 类 的 混淆 矩阵 显示 在 图 5. 3 中 。 其 中 
= 一 真正 (True Positives) 指 分 类 器 正确 标记 的 正 元 组 ,而 
gman (ZEEE | PA | 真 负 (True Negatives) 是 指 分 类 器 正确 标记 的 负 元 组 。 

否 假 正 真 负 假 正 (False Positives) 是 错误 标记 的 正 元 组 , 假 负 (False 
图 5.3 ， 混 请 矩阵 示意 图 Negatives) 是 错误 标记 的 负 元 组 。 利 用 这 4 个 数据 ,可 
以 得 到 其 他 不 同 的 准确 率 度量 方式 。 

最 后 介绍 如 何 利用 特定 的 度量 准则 评估 分 类 器 或 预测 器 的 准确 率 。 保 持 、 随 机 子 抽样 、 
交叉 验证 是 常用 的 基于 给 定数 据 的 随机 抽样 划分 ,评估 准确 率 的 常用 技术 。 这 些 技术 的 使 
用 会 增加 总 体 计算 开销 ,但 是 会 有 利于 模型 选择 。 

保持 方法 是 一 般 讨论 准 确 率 默认 的 方法 。 这 种 方法 将 给 定数 据 分 为 两 个 独立 的 集合 : 
训练 数据 集 和 测试 数据 集 。 一 般 2/3 的 数据 作为 训练 数据 集 ,1/3 的 数据 作为 测试 数据 集 。 
训练 数据 集 用 来 建立 模型 ,而 准确 率 通过 测试 数据 集 来 评估 。 

随机 子 抽样 方法 是 保持 方法 的 简单 变形 , 它 将 保持 方法 重复 次 ,总 的 准确 率 估计 取 每 
次 迭代 准确 率 的 平均 值 。 

在 k- 交 叉 检验 中 ,初始 数据 随机 划分 为 个 互 不 相交 的 子 集 S1 ,S,,… ,Si ,每 个 子 集 的 
大 小 大 臻 相等。 训练 和 测试 进行 次。 在 第 i 次 迭代 , 子 集 S; 用 作 测 试 集 , 其 余 的 子 集 用 来 
训练 模型 。 也 就 是 说 ,在 第 一 次 迭代 中 , 子 集 S;,…,S 一 起 作为 训练 集 , 得 到 第 一 个 模型 ,并 
在 Sy 上 检验 ;第 二 次 迭代 在 子 集 S; ,S: 00S, 上 训练 ,并 在 S, 上 检验 ;如 此 进行 。 可 以 看 
出 在 k- 交 又 检验 中 每 个 样本 用 于 训练 的 次 数 相同 ,并 且 都 用 来 检验 一 次 。 对 于 分 类 问题 ， 
准确 率 估 计 就 是 & 次 迭代 正确 分 类 的 总 数 除 以 初始 数据 中 的 元 组 总 数 。k -交叉 检验 相 比 
于 随机 子 抽样 方法 减少 了 训练 集 和 测试 集 使 用 的 随机 性 。 


5.4 决策 树 分 类 


决策 树 分 类 指 的 是 从 类 别 标记 的 训练 元 组 中 学 习 决 策 树 。 决 策 树 ,顾名思义 ,就 是 类 似 
于 流程 图 的 树 形 结构 。 一 个 决策 树 由 一 个 根 节点 年 龄 ? 
和 一 系列 内 部 节点 分 支 以 及 若干 叶 节 点 构成 。 每 | 
个 内 部 节点 只 有 一 个 父 节点 和 两 个 或 多 个 子 节 ”小 于 等 了 30 30-40 ”大 于 40 
点 ,节点 和 节点 之 间 形 成 不 同 的 分 支 。 其 中 树 的 / | 
每 个 内 部 节点 代表 一 个 决策 过 程 中 所 要 测试 的 属 各 yy 
性 ,每 个 分 支 代表 测试 的 一 个 结果 ,不 同属 性 值 代 
表 不 同 分 支 ,而 每 个 叶 节点 就 代表 一 个 类 别 。 树 an ra 
的 最 高 层 节 点 称 为 根 节点 ,是 整个 决策 树 的 开始 。 到 
可 以 看 出 ,决策 桂 的 基本 组 成 部 分 为 根 节点 . 节 | 
点 .分支 和 叶 节 点 。 一 棵 典型 的 决策 树 示 意图 如 和 否 


图 5.4 所 示 , 它 表示 顾客 是 否 可 能 购买 计算 机 。 图 5.4 一 棵 典型 的 决策 树 
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预测 类 别 


在 利用 决策 树 进行 分 类 时 ,对 于 给 定 的 一 个 类 别 标号 未 知 的 元 组 X ,在 决策 树 上 测试 元 
组 的 属性 值 ,从 决策 树 的 根 节点 到 叶 节 点 的 一 条 路 径 就 形成 对 该 元 组 的 类 别 预测 。 决 策 树 
容易 转化 为 分 类 规则 。 

决策 树 分 类 器 是 非常 流行 的 分 类 方法 。 它 的 构造 一 般 不 需要 任何 领域 知识 或 参数 设 
置 ,也 可 以 处 理 高 维 数据 。 它 对 知识 的 表示 是 直观 的 ,非常 易于 理解 。 用 决策 树 进行 学 习 和 
分 类 的 步骤 是 简单 和 迅速 的 。 一 般 来 说 ,决策 树 具 有 较 好 的 分 类 准确 率 。 但 是 决策 树 的 成 
功 应 用 可 能 依赖 于 所 拥有 的 数据 。 

在 5.4.1 节 将 介绍 基本 的 决策 树 学 习 算 法 。 在 5. 4. 2 节 将 介绍 流行 的 属性 选择 度量 ， 
属性 选择 度量 用 来 选择 将 元 组 最 好 的 划分 成 不 同 的 类 属性 。 在 5.4. 3 节 将 介绍 如 何 从 决策 
树 中 提取 分 类 规则 。 在 5. 4.4 节 将 讨论 如 何 加 强 基 本 的 决策 树 归纳 方法 。 在 5.4.5 节 将 介 
绍 决策 树 归纳 在 大 数据 集中 的 分 类 。 


5.4.1 决策 树 归 纳 


最 早 的 决策 树 算法 是 由 机 器 学 习 研 究 者 Quinlan 提出 , 称 作 ID3。 在 此 基础 上 ,Quinlan 
又 提出 了 ID3 的 后 继 算 法 C4. 5, 成 为 新 的 监督 学 习 算 法 性 能 的 比较 基准 。1984 年 ,统计 学 
家 Breiman 等 提出 了 分 类 与 回归 树 CART, 介 绍 了 二 叉 决 策 树 的 产生 思想 。ID3 和 CART 
在 训练 元 组 学 习 决 策 树 方面 都 采用 了 类 似 的 方法 。 这 两 个 基础 算法 推动 了 之 后 决策 树 归纳 
的 研究 。 

在 构造 决策 树 方面 ,ID3、C4.5 AL CART 都 采用 贪心 的 方法 ,以 自 顶 向 下 递归 的 分 治 方 
法 来 构造 。 


5.4.2 属性 选择 度量 


属性 选择 度量 是 一 种 分 裂 准则 , 它 是 将 给 定 类 别 标号 的 训练 元 组 数据 集 D* 最 佳 " 地 划 
分 成 个 体 类 的 启发 式 方法 。 属 性 选择 度量 又 称 为 分 裂 规则 ,是 构造 决策 树 分 类 器 的 关键 。 
它 根据 某 种 度量 得 分 ,决定 给 定 节点 的 分 裂 属性 ,从 而 分 裂 给 定 节点 上 的 元 组 。 选 择 的 标准 
是 要 使 在 每 个 非 叶子 节点 进行 属性 测试 时 ,使 被 测试 元 组 的 类 别 信息 最 大 化 ,保证 非 叶子 节 
点 到 达 各 后 代 叶 子 节 点 平均 路 径 最 短 ,分 类 速度 较 快 。 如 果 分 类 属性 是 离散 的 , 则 可 以 通过 
直接 枚 举 的 方式 构造 分 枝 , 但 是 如 果 分 裂 属性 是 连续 的 或 者 只 限于 构造 二 又 树 , 则 一 个 分 裂 
点 或 一 个 分 裂 子 集 也 必须 作为 分 裂 准则 的 一 部 分 来 确定 。 本 节 介 绍 非常 流行 的 三 种 属性 选 
择 度 量 方法 : 信息 增益 .增益 率 和 Gini 指标 。 
首先 介绍 信息 增益 ,ID3 使 用 它 作为 属性 选择 度量 方法 。 该 度量 是 基于 信息 论 方面 的 
基础 工作 。 设 数据 集 S 包含 ;; 个 类 别 为 i 的 元 组 ,其 中 i€ {1,2,…,m)。 对 S 中 的 元 组 进行 
分 类 ,所 期 望 的 信息 量 由 如 下 公式 给 出 : 
1(81 952 9***+5m)=— >) = log, # (5-1) 


假设 现在 需要 根据 属性 A 划分 S 中 的 元 组 ,其 中 属性 A 由 训练 集中 具有 w 个 不 同 的 属 
PETE Cai razst ,a,) 组 成 。 如 果 A 的 属性 值 是 离散 的 , 则 直接 对 应 于 A 测试 上 的 v 路 分 枝 ， 
数据 集 S 将 被 划分 为 v PEE (S SeS) ,并且 设 ;表示 数据 子 集 S; 中 类 别 为 i 的 元 组 
个 数 。 理 想 情况 下 ,希望 该 划分 产生 元 组 的 准确 分 类 , 即 每 个 划分 中 的 元 组 都 属于 同一 类 别 
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标记 ,但 是 这 种 情况 往往 不 成 立 。 需 要 有 一 个 量 来 度量 如 下 情况 :为 了 得 到 准确 的 分 类 还 需 
要 多 少 期 望 信息 量 。 这 个 量 由 下 式 给 出 ,也 称 为 属性 A 的 信息 入 : 


E(A)= > 下 二 To (5-2) 
在 属性 A 上 分 裂 的 信息 增益 定义 为 ， 
Gain(A) = I(s1,s2 "sn )— E(A) (5-3) 


它 是 原来 的 信息 需求 与 基于 属性 A 划分 后 的 信息 需求 之 差 ,表示 通过 属性 A 得 到 了 多 
少 。 在 选择 分 裂 属性 时 ,选择 具有 最 高 信息 增益 Gain(A) 的 属性 A 作为 节点 的 分 裂 属性 。 
这 使 得 完成 元 组 分 类 所 需要 的 信息 量 最 小 , 即 最 小 化 下 (A ) 。 

下 面 举 例 说 明 如 何 用 信息 增益 进行 决策 树 的 属性 选择 ,从 而 对 给 定 节点 进行 分 裂 。 
表 5.1 是 一 组 带 有 类 别 标记 的 训练 元 组 集合 S, 其 中 buys_computer 是 类 别 标记 。 类 标号 
属性 有 两 个 不 同 的 值 , 即 {yes, no}。 设 类 已 对 应 于 yes, 类 N 对 应 于 no, HHH PAO 个 
元 组 ,类 N 有 5 个 元 组 。 由 S 中 元 组 首先 创建 根 节点 ,为 了 选择 分 多 属性 ,必须 计算 每 个 必 
性 的 信息 增益 。 由 式 (5-1) 可 以 得 出 将 S 中 元 组 正确 分 类 所 需要 的 期 望 信息 为 : 


Tp 109.5) =- 2 3 toe (各 -二 loeh) 0. 940 
下 面 从 属性 age 机 Li. StF UTE age, 属 性 值 为 “二 一 30” 的 有 
两 个 属于 类 已 ,3 个 属于 类 Ni; 属 性 值 为 "31 一 40” 的 有 4 个 属于 类 P.O 个 属于 类 N; 属 性 值 
大 于 40 的 有 3 个 属于 类 P, eee N。 则 
E (age) ŠI@, bki FI(A, o+: 51(3, 2)= 0. 694 
以 属性 age ye eg 
Gain(age)= I(p.n)— E(age) = 0.246 


类 似 地 ,可 以 得 到 : 

Gain (income) =0. 029 

Gain (student )=0. 151 

Gain(credit_rating ) =0. 048 

R51 学 生 基本 信息 表 
Age Income Student Credit_rating Buys_computer 

<=30 high no fair no 
<=30 high no excellent no 
31~40 high no fair yes 
>40 medium no fair yes 
>40 low yes fair yes 
>40 low yes excellent no 
31~40 low yes excellent yes 
<=30 medium no fair no 


续 表 


Age Income Student Credit_rating Buys_computer 
<=30 low yes fair yes 
>40 medium yes fair yes 
<=30 medium yes excellent yes 
31~40 medium no excellent yes 
31~40 high yes fair yes 
>40 medium no excellent no 


由 于 age 在 所 有 属性 中 具有 最 高 的 信息 增益 ,因此 选择 属性 age 作为 根 节 点 的 分 裂 属 
性 。 根 节点 用 age 标记 ,并 对 每 个 属性 生长 出 一 个 分 枝 , 然 后 根据 该 属性 对 元 组 作出 划分 。 
对 每 个 产生 的 节点 再 执行 相同 的 步骤 ,以 此 计算 最 终 会 生成 一 棵 决策 树 。 

上 述 涉及 到 的 属性 都 是 离散 值 ,如 果 涉 及 到 连续 属性 值 应 该 如 何 计算 信息 增益 ?这 时 
必须 要 确定 最 佳 的 分 裂 点 。 具 体 来 说 ,首先 根据 属性 A 将 数据 集 S 中 的 值 进行 排序 。 典 型 
地 ,每 对 相 邻 值 的 中 间 值 作为 可 能 的 分 裂 点 。 这 样 属 性 A 给 定 的 v 个 值 , 则 有 v 一 1 种 可 能 
的 分 裂 ,对 每 个 分 裂 点 计算 期 望 信息 量 , 其 中 划分 的 子 集 个 数 为 2,S;, 是 满足 A<split_point 
的 集合 ,而 S 是 满足 A>split_point 的 集合 。 最 终 选 择 的 分 裂 点 是 v 一 1 个 可 能 分 裂 点 中 
使 期 望 信息 量 最 大 的 那个 点 。 

信息 增益 偏向 于 选择 具有 大 量 值 的 那些 属性 作为 分 裂 属性 。 例 如 ID 是 充当 数据 表示 
的 一 个 属性 ,以 属性 值 ID 进行 分 裂 将 导致 大 量 划分 ,每 个 划分 只 包含 一 个 元 组 。 基 于 该 划 
分 对 数据 集 S 分 类 所 需要 的 信息 量 为 0。 这 样 以 该 属性 划分 得 到 的 信息 增益 最 大 ,但 是 显 
然 这 种 划分 对 分 类 来 说 是 不 合理 的 。 

ID3 的 后 继 C4. 5 算法 采用 增益 率 来 克服 信息 增益 在 这 方面 的 问题 ,增益 率 使 用 分 裂 信 
息 值 将 信息 增益 规范 化 。 分 裂 信息 值 定义 如 下 : 


SplitInfos (S)=— » et x loge (1311) (5-4) 
该 值 表 示 通 过 属性 A 将 数据 集 S 划分 成 ue a 增益 率 定义 为 : 
Gain(A) 


GainRatiol el aE SS 


选择 具有 最 大 增益 率 的 属性 作为 分 裂 属性 。 计 算 前 面 例子 中 属性 income 的 增益 率 ， 
首先 


SplitInfoincome (S) = X logs (4) 二 logs = 一 X logs 一 一 0. 926 


则 GainRatio (income ) = aoa =0. 031. 


下 面 介绍 另 一 种 属性 选择 度量 指标 , 称 为 Gini 指标 ,CART 中 使 用 了 这 种 指标 。 该 指 
标定 义 数 据 划分 或 训练 集 S 的 不 纯度 ,定义 如 下 : 


bea 2 
Gini(S)= 1— >) (2) (5-6) 
i=1 
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Gini 指标 只 考虑 属性 的 二 元 划分 。 如 果 属 性 A 是 离散 值 , 则 考虑 其 所 形成 的 所 有 子 
集 ,其 中 不 包括 全 集 和 空 集 。 对 每 个 子 集 SA 可 看 作 属 性 A 的 形 如 “AE Sa?” 的 二 元 测试 。 
如 果 属 性 A 是 连续 值 , 则 考虑 每 个 可 能 的 分 裂 点 ,这 类 似 上 述 计 算 连 续 值 属性 的 信息 增益 
所 采用 的 策略 。 

如 果 一 个 数据 集 S 在 属性 A 上 被 划分 为 两 个 子 集合 SH S;, 则 在 属性 A 上 划分 S 的 Gini 
指标 定义 为 : 


| Si | | S: | 


Ginia (S) = -Fop Sini (Si + fg Gini (S+) 6-7) 
按 属 性 A 进行 二 元 分 裂 导致 的 不 纯度 变化 量 为 : 
AGini(A) = Gini (S)— Ginia (S) (5-8) 


选取 不 纯度 变化 量 最 大 的 属性 (或 等 价 地 具有 最 小 Gini 指标 的 属性 ) 作 为 分 裂 属 性 。 
该 属性 和 它 的 分 裂 子 集 ( 离 散 属性 ) 或 分 裂 点 (连续 属性 ) 一 起 形成 分 裂 准则 。 
还 是 以 表 5. 1 中 的 数据 集 S 为 例 , 首 先 计算 S 的 不 纯度 : 
Gini(S)= 1 (3) (3) 0. 459 
如 果 考 虑 属性 income RF 42 (low, medium} , 则 基于 该 划分 的 Gini 值 为 : 


Ginilt me dinaa (S)= (zi Joinics, ) 十 (f )sinics. 
= 0. 443 = Giniincomee ¢highy (S) 
类 似 地 ,可 以 得 到 : 
Giniineome€ ¢lowstigh} (S)=0.458 
Giniincome€ {mediumy (S)=0.458 
Giniincome€ {medium-high} (S) 一 0.450 
Giniineome€ glow} (S)=0.450 
由 此 对 于 属性 income 的 最 好 二 元 划分 在 {low, medium) 或 {high) 上 。 
总 的 来 说 ,信息 增益 、 增 益 率 和 Gini 系数 是 三 种 常用 的 属性 选择 度量 指标 ,一 般 都 能 返 
回 较 好 的 结果 。 但 是 它们 都 有 各 自 的 选择 偏向 。 信 息 增益 倾向 于 多 值 数据 ;增益 率 虽然 克 
服 了 信息 增益 倾向 于 多 值 数据 的 问题 ,但 是 它 倾向 于 不 平衡 的 分 裂 , 即 其 中 一 个 划分 可 能 比 
其 他 划分 小 得 多 ;Gini 系数 指标 偏向 于 多 值 属 性 ,而 且 当 类 的 数目 很 大 时 会 出 现 困难 ,另外 
它 还 倾向 于 导致 相等 大 小 和 相等 纯度 的 划分 ,也 就 是 说 倾向 于 一 种 均衡 的 划分 。 
目前 也 已 经 提出 了 其 他 许多 属性 选择 度量 方法 ,如 C-SEP、MDL 和 G-statistics 等 ,但 
是 所 有 的 度量 都 具有 某 种 偏向 ,还 未 发 现 一 种 度量 能 够 显著 优 于 其 他 度量 ,大 部 分 度量 在 特 
定 的 条 件 下 能 产生 较 好 的 结果 。 


5.4.3 提取 分 类 规则 


已 经 基本 了 解 了 如 何 从 训练 集中 建立 一 个 决策 树 分 类 器 。 但 是 所 建立 的 决策 树 往往 很 
大 ,不 容易 理解 。 本 节 讨 论 如 何 从 决策 树 中 提取 IF-THEN 规则 ,建立 基于 规则 的 分 类 器 。 
相 比 于 决策 树 ,这 种 规则 更 便于 人 理解 ,特别 是 当 决策 树 非常 大 时 。 
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当 从 决策 树 中 提取 规则 时 ,对 从 根 节点 到 每 个 叶 节点 的 路 径 建 立 一 条 规则 。 存 放 类 别 
标记 的 叶 节点 形成 规则 的 THEN 部 分 ,而 路 径 上 的 其 他 节点 依次 用 AND 连接 形成 规则 的 
IF 部 分 。 以 图 5.4 中 的 决策 树 为 例 , 提 取 的 规则 如 下 所 示 : 

RL: 正 年 龄 "<=30" AND student=" 否 "THEN buys computer= "R" 

R2: 正 年 龄 "<=30" AND student= "J" THEN buys computer "fii" 

R3: IF 年 龄 in"31~40" THEN buys computer= "fii" 

R4: 下 年 龄 "> 40" AND credit_rating= "优秀 " THEN buys _computer= "fii" 

R5: IF 46H "> 40" AND credit rating="— fit" THEN buys computer = "JE" 

由 上 面 讨 论 可 知 , 从 决策 树 中 提取 规则 是 相对 容易 的 ,但 是 应 注意 的 是 每 个 叶 节点 都 对 
应 一 条 规则 ,导致 有 时 候 提 取出 的 规则 集 并 不 比 决策 树 简 单 多 少 ,这 时 往往 需要 对 结果 规则 
集 进行 剪 枝 , 以 去 除 重复 的 子 树 以 及 不 相关 的 和 宛 余 的 属性 测试 。 


5.4.4 基本 决策 树 归 纳 的 增强 


简单 归纳 一 下 对 基本 决策 树 归纳 的 增强 方式 。 

(1) 在 决策 树 归纳 中 ,允许 决策 树 存在 具有 连续 值 的 属性 ,这 时 通常 将 连续 的 属性 值 分 
成 多 个 连续 的 区 间 ,每 个 区 间 对 应 一 个 离散 的 值 ,这样 连 续 值 的 属性 就 转化 成 为 新 的 离散 值 
属性 。 

(2) 在 决策 树 归纳 中 可 以 处 理 缺 失 的 属性 值 ,一 般 有 两 种 方式 ,一 种 方式 是 将 最 常见 的 
属性 值 赋予 该 属性 , 另 一 种 方式 是 以 概率 的 方式 选择 可 能 的 属性 值 。 

(3) 在 决策 树 归纳 中 可 以 创建 新 的 属性 。 基 于 那些 被 稀 玻 表示 的 已 有 属性 ,可 以 创建 
新 的 属性 ,这 样 可 以 减少 碎片 .重复 和 复制 的 产生 。 


5.4.5 在 大 数据 集中 的 分 类 


分 类 是 一 个 经 典 的 问题 ,在 统计 学 和 机 器 学 习 领 域 都 被 广泛 的 研究 。 但 是 存在 一 个 很 
重要 的 问题 需要 解决 ,就 是 分 类 算法 扩展 性 的 问题 。 在 实际 应 用 中 ,数据 集中 可 能 存在 成 百 
上 千 万 的 样本 ,每 个 样本 可 能 有 成 百 上 千 的 属性 ,分 类 算法 需要 在 大 的 数据 集中 获得 合理 的 
训练 速度 和 学 习 准确 率 。 

为 什么 在 大 规模 的 数据 挖掘 中 ,决策 树 被 较 广 泛 地 应 用 呢 ? 

CL) 它 相 对 于 其 他 分 类 方法 有 较 快 的 学 习 速 度 。 

(2) 生成 的 决策 树 能 够 很 容易 转换 为 简单 易于 理解 的 分 类 规则 。 

(3) 它 能 够 使 用 SQL 语句 对 数据 库 进 行 访问 。 

(4) 它 与 其 他 分 类 方法 相 比 有 着 可 比较 的 分 类 准确 率 。 


5.5 贝 叶 斯 分 类 


贝 叶 斯 分 类 方法 是 统计 学 的 分 类 方法 , 它 利 用 概率 统计 知识 预测 给 定 元 组 属于 特定 类 
的 概率 。 贝 叶 斯 分 类 基于 贝 叶 斯 定理 。 最 简单 的 贝 叶 斯 分 类 算法 称 为 朴素 贝 叶 斯 分 类 法 。 
该 方法 虽然 简单 ,但 是 却 在 实际 应 用 中 表现 出 了 很 高 的 准确 率 和 效率 ,而 且 可 以 应 用 到 大 型 
数据 库 中 。 


bo 
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朴素 贝 叶 斯 法 有 一 个 重要 的 前 提 假 设 , 即 一 个 属性 值 对 分 类 的 影响 独立 于 其 他 属性 值 。 
这 一 假设 也 称 为 类 条 件 独 立 性 。 该 假设 的 目的 是 为 了 简化 计算 。 贝 叶 斯 信念 网 络 是 一 种 图 
模型 , 它 能 刻画 属性 子 集 之 间 的 依赖 关系 , 贝 叶 斯 信念 网 也 可 以 用 于 分 类 。 当 类 条 件 独立 性 
满足 或 近似 满足 时 ,朴素 贝 叶 斯 方法 往往 可 以 获得 很 高 的 准确 度 。 否 则 ,可 以 考虑 使 用 贝 叶 
斯 信念 网 络 进行 分 类 。 

在 5.5.1 节 将 首先 介绍 贝 叶 斯 分 类 的 基本 理论 , 即 贝 叶 斯 定理 。 在 5. 5. 2 节 将 学 习 朴 
素 贝 叶 斯 分 类 法 。 贝 叶 斯 信念 网 络 将 在 5. 5. 3 节 介绍 。 最 后 将 简要 介绍 如 何 根据 给 定数 据 
学 习 贝 叶 斯 信念 网 络 。 


5.5.1 贝 叶 斯 定理 


假设 X 是 一 个 未 知 标 记 的 数据 元 组 。 互 是 某 种 假设 ,如 数据 元 组 X 属于 特定 类 C 。 对 
于 分 类 问题 ,需要 计算 PCH |X) , 即 对 于 给 定 元 组 X ,假设 H 成 立 的 概率 。P(HIX) 是 在 条 
EX FH 的 后 验 概率 。 

PCH) PRE MBI H 的 先 验 概率 。 它 是 在 观测 数据 之 前 根据 以 往 经 验 和 分 析 得 到 的 概 
率 , 反 映 了 问题 的 背景 知识 。P(X) 是 元 组 被 观测 到 的 概率 ,或 者 说 是 X 的 先 验 概率 。P 
CX | AD FE FEB H 成立 的 条 件 下 ,元 组 X 被 观测 到 的 概率 ,或 者 说 是 在 条 件 妃 下 X 的 后 

给 定 训练 数据 X ,在 条 件 X 下 , 互 的 后 验 概率 服从 贝 叶 斯 定理 ; 


P(H| x)=" HLUD (5-9) 


式 (5-9) 也 可 以 简单 地 描述 为 : 后 验 = 似 然 X 先 验 / 证 据 因 子 。P(XIH)、P(H) 和 P 
(CX) 可 以 由 给 定 的 数据 估计 ,因此 贝 叶 斯 定理 提供 了 由 POX | H), PCA P(X) 计算 后 验 
概率 P(HIX) 的 方法 。 在 5. 5. 2 节 中 将 介绍 如 何在 朴素 贝 叶 斯 分 类 中 使 用 贝 叶 斯 定理 。 


5.5.2 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 有 一 个 简单 的 前 提 假 设 , 即 属性 之 间 是 条 件 独 立 的 ,也 称 为 类 条 件 独立 
性 假设 。 假 定 每 个 元 组 可 表示 为 X= (zz sox, ) ,其 中 zz, 描述 属性 A 的 值 ,k= 二 1,2,…， 
n, 并 且 总 共有 m 个 类 Ci ,Cs,…,C,, 则 该 条 件 可 以 形式 化 为 : 


P(X|C)= [[ Piel CG) (5-10) 
k=1 


以 属性 大 小 为 2, 属 性 值 分 别 为 mw 和 wy 的 元 组 为 例 ,元 组 [yi ,yj 出 现在 当前 类 C 中 的 
概率 是 yi 出 现在 当前 类 C 的 概率 与 y; 出 现在 当前 类 C 的 概率 之 积 。 即 
P([y1 +92] 1C)=P(911C) XP(y1C) 
由 上 述 , 朴 素 贝 叶 斯 分 类 认为 属性 之 间 没 有 依赖 关系 。 对 于 给 定 元 组 X, 由 贝 叶 斯 定理 
可 以 分 别 计算 ， 
P(X | GC) PCC,) 
P(X) 


朴素 贝 叶 斯 分 类 法 将 元 组 X 归于 具有 最 高 后 验 概率 P(C;|X) 的 那个 类 C; 中 (类 C; 称 为 
最 大 后 验 假 设 ) 。 即 若 元 组 X 被 归 类 于 C; , 当 且 仅 当 
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PIG xXj= = 1.2.e+4m (5-11) 


P(E XSPEC XY 

由 于 P(X) 对 所 有 类 都 是 常数 ,P(C;|X) 最 大 可 以 转化 为 P(XIC;)P(C;) 最 大 ,如 果 概 
率 未 知 ,通常 假设 这 些 类 的 先 验 概率 是 相等 的 , 即 PC.) = P (Co) = + = PCC, ,这样 可 以 
进一步 将 P(C;|X) 最 大 转化 为 P(X|C;) 最 大 。 另 外 ,也 可 以 通过 给 定数 据 来 估计 类 的 先 验 
概率 ,如 类 C; 的 先 验 概率 P(C;) 可 以 用 训练 集中 属于 C; 类 的 元 组 数 所 占 训练 元 组 总 数 的 比 
例 来 估计 。 这 样 利 用 朴素 贝 叶 斯 方法 进行 分 类 ,有 待 解决 的 就 是 如 何 计算 概率 P(X|C;)。 

如 果 没 有 类 条 件 独 立 性 假设 ,P(XIC;) 的 计算 可 能 是 很 困难 的 ,特别 是 当 属 性 数目 很 
大 时 。 但 是 由 类 条 件 独立 假设 ,可 以 根据 式 (5-10) 将 P(XIC;) 的 计算 转化 为 计算 PCze| 
C;)。 对 于 P(x 1C;) 的 计算 需要 考虑 两 种 情形 : 

(1) 如 果 A, 是 离散 值 属 性 , 则 P Ce 1C;) 可 由 属性 Ai 的 值 为 x 且 属 于 类 C; 的 元 组 数目 除 
以 属于 类 C ,的 元 组 数目 。 

(2) 如 果 A* 是 连续 值 属 性 ,通常 假定 连续 值 属 性 服从 均值 为 w, 方 差 为 c 的 高 斯 分 布 ,由 
下 式 定 义 : 

l ep 
Jiro l 
则 P (xrl Ci) =g (2r yc, oc, ) ,其 中 pc 和 cc 是 C; 类 训练 元 组 的 属性 A 的 均值 和 标准 差 。 

下 面 还 是 以 表 5. 1 来 阐述 朴素 贝 叶 斯 分 类 的 工作 过 程 。 假 设 需 要 分 类 的 元 组 X = 
(age<30. Income = Medium, Student = yes, Credit_rating = Fair) 。 现 在 根据 朴素 贝 
叶 斯 分 类 方法 ,要 将 X 归 到 合适 的 类 别 。 为 此 需要 计算 P (XC; )P (G) ,一 1,2, 并 找到 使 
P(XICi)P (Ci) 最 大 的 那个 C;。 首 先 计 算 P(X1C;) ,计算 结果 如 下 : 


g(z:y:5)= 


P (age= "<30" | buys_computer= "yes" ) = = =0, 222 
P (age= "<30" | buys_computer= "no" ) = 2 =0.6 
: " sn "oan 4 
P (income= "medium" | buys_computer = "yes ) 二 本 二 外 444 
P (income= "medium" | buys_computer="no" ) = 5 一 0. 4 


P (student= "yes" | buys_computer= "yes" ) = 4 =0. 667 


P (student= "yes" | buys_computer= "no" ) = + 一 0.2 


P (credit_rating= "fair" | buys_computer= "yes" ) = 4 =0. 667 


P (credit_rating="fair" | buys_computer="no" ) = 三 一 0.4 
然后 计算 PCO ,计算 结果 如 下 : 
P(buys_computer= "yes" ) = 一 一 0. 643 


P(buys_computer= "no" )= 一 =0. 357 


最 后 计算 PCX|C;)P (C) ,计算 结果 如 下 : 
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P(X|buys_computer="yes" )P (buys_computer= "yes" ) 
=0. 222 X0. 444 X0. 667 X0. 667 X 0. 643=0. 028 
P(X|buys_computer= "no" ) P (buys_computer= "no" ) 
=0.6X0.4X0. 2X0. 4X0. 357=0. 007 
由 此 可 得 
P (X |buys_computer= "yes" ) P (buys_computer= "yes" ) > 
P(X|buys_computer="no" ) P(buys_computer="no" ) 
所 以 元 组 X 属于 类 buys_computer="yes", 
朴素 贝 叶 斯 方法 的 优势 在 于 它 易 于 实现 ,而 且 在 大 多 数 情况 下 能 够 获得 较 好 的 分 类 准 
确 率 。 它 的 劣势 在 于 它 的 类 条 件 独 立 性 假设 ,如 果 数 据 的 各 个 属性 之 间 有 比较 强 的 依赖 关 
系 , 朴 素 贝 叶 斯 方法 往往 不 能 取得 较 好 的 结果 。 如 何 处 理 属性 之 间 的 依赖 关系 呢 ? 贝 叶 斯 
信念 网 络 是 一 个 较 好 的 选择 。 


5.5.3 贝 叶 斯 信念 网 络 
首先 考虑 n 个 变量 的 联合 概率 分 布 P(Xi ,Xs,…,X, ) ,可 以 把 它 写 为 : 


P(X1 X230 X,)= P(X1)P(X2 | Xi) "P(X, | Xi: X25 Xma) 


ll 


TWP CG) Riv (5-12) 
i=l 


对 于 任意 X; ,如 果 存 在 x (X;) G(X. X20 ,Xi_1) ,使 得 给 定 x(X;) ,Xi 与 {Xi Xa, 
Xi-i} 中 的 其 他 变量 条 件 独 立 , 即 
P(X; | XXX) 一 PCOX|r(CX)) (5-13) 
则 可 得 


PXis XiX) = [] PCX: | x(X;)) (5-14) 
i=1 


ORE DE BN TEA) A — A i Yo (X,) = SI. PX, | (X;) ) 为 边缘 分 布 
P(X;)。 在 式 (5-13) 的 分 解 中 变量 X; 的 分 布 直 接 依赖 于 x(X;) 的 取 值 。 如 果 给 定 x (X;)， 
WX: {Xi ,XX,,…,X;_1) 中 的 其 他 变量 条 件 独立 。 可 以 构造 一 个 有 向 图 来 表示 这 些 依赖 
和 独立 关系 : 

(1) 每 个 变量 都 表示 为 一 个 节点 。 

(2) 对 于 每 个 节点 Xi ,都 从 r(X;) 中 每 个 节点 画 一 条 有 向 边 到 X,。 

例如 ,假设 有 4 个 变量 X,Y,Z,P, 若 x(X)==x(Y) 二 pg,x(2Z)=={X,Y},x(P)==Y。 可 
以 得 到 如 图 5.5 所 示 的 有 向 图 。 

这 个 图 使 得 变量 之 间 的 关系 一 目 了 然 ,变量 Z 依赖 于 变量 
X 和 YY, 变 量 P 依赖 于 变量 Y。 那 么 变量 Z 具体 如 何 依赖 于 变量 
X 和 YY, 条 件 概 率 分 布 P(Z|X.Y) 定 量 回答 了 这 个 问题 。 类 似 
地 ,变量 PCPIY) 定 量 刻画 了 变量 P 如 何 依赖 于 变量 Y。 变 量 X 
和 了 不 依赖 于 其 他 变量 ,PCX) 和 P(Y) 给 出 了 它们 的 边缘 分 布 。 ®© 
图 5.5 所 示 的 有 向 图 与 这 5 个 概率 分 布 合 在 一 起 就 构成 了 一 个 ” 图 5.5 变量 关系 图 
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贝 叶 斯 信念 网 络 ,也 简称 为 贝 叶 斯 网 络 。 

贝 叶 斯 网 络 是 一 个 有 向 无 环 图 ,图 中 的 节点 代表 随机 变量 ,可 以 对 应 于 实际 数据 中 的 某 
个 属性 。 节 点 间 的 边 代 表 变 量 之 间 的 直接 依赖 关系 。 如 果 有 一 条 边 由 节点 X 到 节点 了 , 则 
PK X EY 的 双亲 或 直接 前 驱 , 而 Y EX 的 后 代 。 给 定 一 个 节点 的 所 有 双亲 , 则 该 节点 有 条 
件 的 独立 于 图 中 它 的 非 后 代 。 贝 叶 斯 网 络 的 每 个 节点 都 附 有 一 个 概率 分 布 , 根 节点 X 所 附 
的 是 它 的 边缘 分 布 P(X), 而 非 根 节点 所 附 的 是 它 的 条 件 概率 分 布 PCX1r(CX))。 贝 叶 斯 信 
念 网 络 允 许 在 变量 子 集 之 间 定 义 类 条 件 独立 性 , 它 是 一 种 提供 因果 关系 的 图 模型 ,可 以 对 其 
进行 学 习 。 训 练 后 的 贝 叶 斯 信念 网 络 可 以 用 来 分 类 。 

图 5.6 是 表示 6 个 布尔 变量 的 简单 贝 叶 斯 网 络 ,图 中 的 边 表 示 因 果 知 识 。 例 如 病人 是 
否 得 LungCancer 受 其 Family History 和 Smoker 的 影响 。 如 果 知 道 病人 得 了 
LungCancer, 那 么 Family Histroy 和 Smoker 就 不 再 提供 关于 PositiveXRay 的 任何 附加 信 
息 。 如 果 知 道 病 人 是 位 Smoker, 那 么 变量 LungCancer 条 件 独立 于 变量 Emphysema。 对 于 
贝 叶 斯 网 络 中 的 每 一 个 变量 X, 有 一 个 条 件 概 率 表 , 它 说 明 条 件 分 布 PCXIr(CX))。 图 5.6 
中 也 给 出 了 变量 LungCancer 的 条 件 概 率 表 。 


Smoker 


(FHS) (FH~S) (FH,S) (~FH~S) 
Lc | os | os | 07 | ol 

Emphysema 
( 肺 气 肿 ) ac | o2 | os | 03 | 09 


Dyspnea 
(呼吸 困难 ) 


PositiveXRay 


在 利用 贝 叶 斯 网 络 进行 分 类 时 ,网 络 中 的 节点 可 以 选 作 输出 节点 ,代表 类 标记 属性 。 可 
以 有 多 个 输出 节点 ,代表 类 标记 的 不 同属 性 值 。 分 类 过 程 不 仅 返回 单个 类 别 标记 ,还 可 以 返 
回 概率 分 布 ,给 出 属于 每 个 类 的 概率 。 但 是 需要 解决 的 问题 是 如 何 根据 已 有 数据 建立 贝 叶 
斯 网 络 ,这 涉及 到 贝 叶 斯 网 络 学 习 的 问题 ,将 在 5. 5.4 节 中 简要 介绍 。 


5.5.4 贝 叶 斯 网 络 学 习 


贝 叶 斯 网 络 中 的 变量 可 以 是 观测 的 ,或 隐藏 在 所 有 或 某 些 训练 的 元 组 之 中 。 隐 藏 数据 
的 情况 也 称 为 缺失 值 或 不 完全 数据 。 在 进行 贝 叶 斯 网 络 学 习 时 ,有 多 种 可 能 的 情况 。 

Q) 给 定 网 络 拓扑 结构 , 且 所 有 变量 都 是 可 以 观测 的 。 这 种 情况 只 需要 学 习 每 个 变量 
的 条 件 概率 表 。 

(2) 网 络 拓 扑 结 构 已 知 , 且 一 些 变 量 是 隐藏 的 。 这 种 情况 可 以 利用 梯度 下 降 的 方法 ,类 
似 于 神经 网 络 学 习 。 

G) 网 络 拓扑 结构 未 知 , 所 有 变量 都 是 可 以 观测 的 。 这 种 情况 可 以 搜索 模型 空间 , 重 构 
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图 5.6 贝 叶 斯 信念 网 络 图 与 条 件 概率 表 


网 络 拓扑 结构 。 因 为 网 络 结构 大 小 随 节点 数目 增多 呈 指 数 增长 ,所 以 一 般 都 采用 启发 式 的 
搜索 方法 ,在 较 短 的 时 间 内 获得 较 优 的 网 络 拓扑 结构 。 

(4) 网 络 拓扑 结构 未 知 , 所 有 变量 都 是 隐藏 的 。 这 种 情况 下 还 没有 好 的 算法 来 解决 这 
个 问题 。 

关于 贝 叶 斯 网 络 学 习 的 细节 问题 ,可 以 参见 本 章 相关 的 参考 文献 。 


5.6 神经 网 络 


首先 回顾 一 下 有 关 分 类 问题 。 分 类 问题 实质 上 可 以 看 作 一 个 数学 映射 问题 ,分 类 的 任 
务 是 预测 元 组 的 类 别 标记 。 举 个 例子 ,需要 判定 一 个 网 页 是 否 是 个 人 主页 ,那么 首先 确定 网 
页 是 个 人 主页 要 具备 哪些 特征 属性 A; (j= 二 1,2,…,n), 例 如 对 于 该 问题 可 以 设 定 A, 是 单词 
homepage 出 现 的 次 数 ,A, 是 单词 welcome 出 现 的 次 数 等 , 则 每 个 网 页 就 可 以 通过 一 个 向 量 
X= (Ta tin ot ,Xxa) 来 表示 ,其 中 zi 表示 向 量 X; 中 属性 A; 的 值 。 分 类 就 是 要 得 到 一 个 映 
St PA Boy; = f CX; ,yiE{ 十 1, 一 1)。 

分 类 器 可 以 分 为 线性 的 和 非 线 性 的 。 线 性 分 类 器 指 所 得 到 的 映射 函数 是 线性 的 。 线 性 
分 类 器 求解 二 分 类 问题 可 以 用 图 5. 7 来 形象 化 地 
描述 。 在 斜 线 上 方 的 数据 点 属于 类 X ,在 斜 线 下 方 
的 点 属于 类 o。SVM 和 感知 机 都 是 典型 的 线性 分 
类 器 。 

分 类 器 从 模型 方面 又 可 以 分 为 两 种 ,分 别 是 产 
生 式 模型 和 判别 式 模型 。 产 生 式 模 型 由 数据 学 习 
联合 概率 分 布 P(X,Y), 然 后 求 出 条 件 概 率 密度 


© 
P(Y|X) 作 为 预测 的 模型 , 即 产 生 式 模型 : © o o © 
PCX,Y) -一 
P(Y| X)= 
(Y | X)= BaD 图 5.7 线性 分 类 器 的 示意 图 


这 种 方法 之 所 以 称 为 产生 式 方法 ,是 因为 模型 
给 定 了 输入 X 产生 输出 Y 的 生成 关系 。 典 型 的 产生 式 模 型 有 朴素 贝 叶 斯 方法 和 隐 马 尔 可 
夫 模 型 。 判 别 式 模型 由 数据 直接 学 习 决 策 函 数 /(X) 或 者 条 件 概率 分 布 PCY|X) 作 为 预测 
的 模型 , 即 判 别 模 型 。 判 别 模型 关心 的 是 对 给 定 的 输入 X ,应 该 预测 什么 样 的 输出 站 。 典 型 
的 判别 模型 包括 决策 树 ,支持 向 量 机 和 神经 网 络 等 。 

基于 判别 式 模型 的 分 类 器 的 优势 在 于 其 预测 准确 率 一 般 较 高 (相对 于 贝 叶 斯 方法 而 
言 ); 方 法 的 鲁 棒 性 较 好 ,在 训练 数据 中 存在 错误 时 仍 能 够 较 好 工作 ;对 于 学 习 得 到 的 目标 函 
数 的 评价 非常 快 ,在 这 方面 贝 叶 斯 网 络 方法 就 比较 慢 。 它 的 劣势 在 于 分 类 器 训练 时 间 较 长 ; 
学 习 所 得 到 的 映射 函数 比较 难于 理解 ,但 是 贝 叶 斯 网 络 在 这 方面 就 具有 一 定 的 优势 ,例如 贝 
叶 斯 网 络 就 可 以 比较 容易 地 用 来 进行 模式 发 现 ;判别 式 模型 比较 难 融入 领域 知识 ,而 贝 叶 斯 
网 络 则 不 同 , 可 以 以 先 验 概率 的 方式 融入 领域 知识 。 

本 章 所 要 介绍 的 神经 网 络 分 类 方法 就 是 一 种 比较 典型 的 基于 判别 式 模型 的 分 类 器 。 
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5.6.1 神经 网 络 简介 


神经 网 络 是 对 生物 系统 的 模拟 ,实际 上 生物 系统 是 一 个 很 好 的 学 习 系统 。 神 经 网 络 算 
法 固有 的 并 行 性 使 其 具有 较 高 的 计算 效率 。 

感知 器 是 一 种 特殊 的 神经 网 络 模型 ,由 美国 心理 学 家 Rosenblatt 在 1959 年 提出 。 它 
一 层 为 输入 层 , 另 一 层 为 计算 单元 ,感知 器 特别 适合 于 简单 的 模式 分 类 问题 。 感 知 器 以 一 个 
实数 值 向 量 作为 输入 ,然后 计算 这 些 输入 的 线性 组 合 , 如 果 结 果 大 于 某 个 阔 值 ,就 输出 1 ,和 否 
则 输出 一 1。 更 精确 地 , 设 输入 为 实 值 向 量 X= (zz ,zi) ,那么 感知 器 计算 的 输出 为 : 

o(X)= 人 if wo + w xı Hw zz 十 … 十 zz 二 0 Ce 
一 1 其 他 

其 中 ww; 是 实数 常量 ,或 者 叫做 权 值 ,用 来 决定 输入 zi 对 感知 器 输入 的 贡献 率 。 数 量 wo 是 一 
个 阔 值 ,为 了 使 感知 器 的 输出 为 1, 输 入 的 加 权 和 必须 超过 阔 值 。 

感知 器 可 以 看 作 是 n 维 实例 空间 中 一 种 超 平面 形式 的 决策 面 。 对 于 超 平面 一 侧 的 实 
例 ,感知 器 输出 为 1, 对 于 另 一 侧 的 实例 输出 为 一 1。 感 知 器 在 用 于 分 类 时 可 以 适用 于 样本 
集 线 性 可 分 的 情况 。 


5.6.2 多 层 神 经 网 络 


由 5.6.1 节 可 知 , 单 个 感知 器 仅 能 够 表示 线性 决策 面 。 多 层 神 经 网 络 能 够 表示 种 类 繁 
多 的 非 线性 曲面 。 图 5. 8 描述 了 一 个 典型 的 多 层 Input Hidden Output 
网 络 结构 ,多 层 神经 网 络 由 一 个 输入 层 、 一 个 或 多 er Iye We 
个 隐藏 层 和 一 个 输出 层 组 成 。 每 层 由 若干 个 神经 
元 组 成 , 层 间 的 神经 元 为 全 连接 ,而 层 内 的 神经 元 
无 连接 。 一 般 地 ,输入 层 和 输出 层 神经 元 的 个 数 
由 训练 集 所 确定 ,网 络 的 输入 对 应 于 每 个 训练 元 
组 测量 的 属性 。 各 层 神 经 元 之 间 的 连接 是 有 权重 
的 ,每 个 神经 元 的 输入 由 连接 到 它 的 各 个 神经 元 
的 输出 加 权 和 确定 (输入 层 除外 )。 多 层 神 经 网 络 图 5.8 一 个 典型 的 神经 网 络 结构 图 
的 隐藏 层 数 目 是 任意 的 ,但 是 实践 中 通常 只 用 一 
层 。 一 般 来 说 ,给 定 足 够 多 的 隐藏 单元 和 足够 的 训练 样本 ,多 层 神经 网 络 可 以 允 近 任何 
PA AC 

需要 指出 的 是 ,为 了 使 神经 元 的 输出 是 输入 的 非 线性 可 微 函 数 , 需 要 利用 激活 函数 作用 
于 隐藏 层 和 输出 层 每 个 单元 的 净 输 入 。 为 了 便于 解释 ,假设 一 个 隐藏 或 输出 单元 为 j, 单 元 
j 的 输入 来 自 上 一 层 的 输出 ,ww 是 由 上 一 层 单元 ; 到 单元 ) 的 连接 权重 ,0; 是 上 一 层 单元 i 
的 输出 ,2 是 单元 7 的 偏 倚 。 则 单元 j 的 净 输 入 为 : 

I, = J, w;0:+6; (5-16) 

然后 需要 利用 激活 函数 作用 于 1 .激活 函数 可 以 使 用 S 形 (Sigmoid) 函 数 , 也 称 为 逻辑 

Hiii (Logistic) 函数 。 给 定单 元 j 的 净 输 入 , 则 由 S 形 函数 ,单元 j 的 输出 O; 可 以 计算 为 : 
1 

l+ 


0; = 


(5-17) 
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5.6.3 神经 网 络 训练 


神经 网 络 的 训练 目标 是 得 到 一 组 权重 ,使 得 训练 集中 的 元 组 尽 可 能 地 被 正确 分 类 。 神 
经 网 络 的 训练 一 般 有 如 下 过 程 : 

(1) 随机 初始 化 权重 。 

(2) 将 输入 元 组 逐个 输入 给 神经 网 络 。 

(3) 对 于 每 个 输入 元 组 ,执行 如 下 过 程 : 

D 每 个 单元 的 净 输 入 计算 为 这 个 单元 所 有 输入 的 线性 组 合 。 

@ 使 用 激活 函数 计算 输出 值 。 

@ 更 新 权重 值 和 偏差 值 。 

需要 注意 的 是 ,在 神经 网 络 训练 之 前 需要 设计 神经 网 络 的 拓扑 结构 ,用户 必须 说 明 输 入 
层 的 单元 数 .隐藏 层 数 .每 个 隐藏 层 的 单元 数 和 输出 层 的 单元 数 ,以 确定 网 络 拓扑 。 对 训练 
元 组 中 的 每 个 属性 的 测量 输入 值 进行 规范 化 有 助 于 加 快 学 习 过 程 。 一 般 可 以 对 输入 值 进行 
归 一 化 ,使 得 它们 落 入 0.0 一 1. 00 之 间 。 离 散 值 属 性 可 以 重新 编码 ,每 个 域 上 的 值 对 应 一 个 
输入 单元 。 例 如 ,如 果 属 性 A 有 三 个 可 能 的 值 {ao a1,as), 则 可 以 分 配 三 个 输入 单元 表示 
A。 可 以 用 I ,1,1 作为 输入 单元 ,每 个 单元 初始 化 为 0。 如 果 ASa , 则 I, 置 为 1; 如 果 A= 
ay , 则 五 置 为 1; 如 此 下 去 。 神 经 网 络 可 以 用 来 分 类 (预测 给 定 元 组 的 类 标号 ) 和 预测 (预测 连 
续 值 输出 )。 对 于 分 类 ,一 个 输出 单元 可 以 用 来 表示 两 个 类 (其 中 值 1 表示 一 个 类 , 值 0 表示 
另 一 个 类 ) 。 如 果 多 于 两 个 类 , 则 每 个 类 使 用 一 个 输出 单元 。 

隐藏 层 单元 数目 的 确定 没有 明确 的 规则 。 它 的 设计 本 身 就 是 一 个 尝试 的 过 程 。 另 外 ， 
权重 初 值 也 会 影响 结果 的 准确 性 。 一 旦 网 络 经 过 训练 后 ,准确 率 不 能 接受 ,通常 会 使 用 不 同 
的 网 络 拓扑 ,调整 初始 权重 值 ,重新 训练 。 


5.6.4 后 向 传播 


后 向 传播 是 一 种 流行 的 多 层 神经 网 络 训练 方法 ,该 方法 迭代 地 处 理 训练 元 组 数据 集 , 将 
每 个 元 组 的 网 络 预测 与 实际 已 知 的 目标 值 比较 。 目 标 值 可 以 是 训练 元 组 的 已 知 类 别 标记 
(对 于 分 类 问题 ) 或 连续 值 (对 于 预测 )。 对 于 每 个 训练 样本 ,修改 权重 使 网 络 预 测 和 实际 目 
标 值 之 间 的 均 方 误差 最 小 。 修 改 “ 后 向 ”进行 , 即 由 输出 层 经 由 每 个 隐藏 层 到 第 一 个 隐藏 层 ， 
所 以 称 作 后 向 传播 。 一 般 来 说 ,后 向 传播 权重 会 收敛 ,学 习 过 程 停止 ,但 是 收敛 条 件 并 不 能 
保证 。 

后 向 传播 算法 的 主要 步骤 如 下 : 

(1) 初始 化 权重 。 网 络 的 权重 初始 化 为 很 小 的 随机 数 ( 如 一 1 一 1) 。 每 个 单元 有 一 个 关 
联 的 偏 倚 , 也 类 似 地 初始 化 为 较 小 的 随机 数 。 每 个 训练 元 组 X 按 以 下 步骤 处 理 。 

(2) 向 前 传播 输入 。 对 每 个 隐藏 层 或 输出 单元 j, 根 据 式 (5-16) 计 算 五, 然后 再 由 
式 (5-17) 进一步 计算 O; ,并 最 终 计算 出 神经 网 络 的 预测 结果 。 

G) 向 后 传播 误差 。 这 一 步 通过 更 新 权重 和 偏 倚 向 后 传播 误差 。 对 于 输出 层 单元 j, 误 
差 Err; 计 算 如 下 : 

Err; = O;(1—O;)(T; —O;) (5-18) 
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其 中 Tj 是 单元 7 基于 给 定 训练 元 组 的 已 知 目标 值 。O (1 一 0;) 实 质 上 是 S 形 函数 的 导数 。 

对 于 隐藏 层 单元 ) ,考虑 下 一 层 中 7 连接 到 单元 的 误差 加 权 和 。 则 隐藏 层 单元 j 的 误 
差 为 : 

Err; = 0;(1—0;) >), Err, wa (5-19) 
其 中 zx 是 单元 ) 到 下 一 较 高 层 单元 k 的 连接 权重 ,Erm 是 单元 & 的 误差 。 权 重 由 式 (5-20) 
和 式 (5-21) 更 新 : 
A w; = (DErr; O; (5-20) 
ws = wj A wj (5-21) 
其 中 A wy 是 权重 w; 的 改变 ;! 是 学 习 速 率 ,通常 取 0. 0 一 1. 0 之 间 的 常数 ,一 种 经 验 的 设置 
是 将 学 习 率 设置 为 1/t ,是 当前 训练 集 迭 代 的 次 数 。 

偏 倚 由 式 (5-22) 和 式 (5-23) 更 新 : 

Að; = (DErr; (5-22) 
0 =0 +46; (5-23) 
其 中 A0, 是 偏 倚 0; 的 改变 。 

如 果 每 处 理 一 个 元 组 就 更 新 权重 和 偏 倚 , 这 称 作 实 例 更 新 。 另 一 种 方式 是 将 权重 和 偏 
倚 的 增 量 累计 到 变量 中 ,在 处 理 完 训练 集中 所 有 元 组 之 后 再 更 新 权重 和 偏 倚 , 该 方式 称 为 周 
期 更 新 ,扫描 训练 集中 所 有 元 组 的 一 次 迭代 是 一 个 周期 。 实 例 更 新 在 实践 中 更 为 常见 ,因为 
通常 会 产生 更 好 的 结果 。 

那 什么 时 候 后 向 传播 过 程 停止 呢 ?” 可 以 从 下 面 几 个 终止 条 件 中 选取 : 

(1) 前 一 周期 所 有 的 A wy 都 小 于 某 个 指定 的 阔 值 。 

(2) 前 一 周期 误 分 类 的 元 组 百分比 小 于 某 个 阔 值 。 

(3) 超过 预先 设 定 的 最 大 周期 数 。 

再 来 看 一 下 后 向 传播 算法 的 时 间 复 杂 度 。 给 定 |D| 个 元 组 和 ww 个 权重 ,每 个 周期 需要 
OC(DXw) 时 间 。 然 而 在 实践 中 ,网 络 收敛 的 时 间 是 
不 确定 的 ,周期 数 在 最 坏 情 况 下 可 能 与 输入 规模 呈 
指数 关系 。 

下 面 通过 例子 说 明 后 向 传播 算法 的 具体 工作 过 
程 。 图 5. 9 给 出 了 一 个 多 层 神经 网 络 的 示意 图 。 

设 学 习 率 :一 0. 9, 第 一 个 训练 元 组 为 X = 


{1,0,1} ,其 类 标号 为 1。 初始 输入 .权重 和 偏 倚 值 设 图 5.9 神经 网 络 示意 图 
置 如 下 : 
Wu 0. 2 ,rul5 0. 3, wa 0. 4s wos 0. 1 ,wa =— 0.5, 
Was 0. 2, wis 0.3,wse =— 0.2 


0, 0.4,0; = 0.2,0, = 0.1 
下 面 首先 计算 每 个 单元 的 净 输 入 和 输出 。 
单元 4 的 净 输 入 为 : 到 一 0.2 十 0 一 0.5 一 0.4 0.7 


= 网 1 
单元 4 的 输出 为 : OTF 


=0. 332 
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单元 5 的 净 输 入 为 : I; =—0.3+0+0.2+0.2=0.1 


单元 5 的 输出 为 :0; 一 二 


单元 6 的 净 输 入 为 : I 二 (一 0.3)(0. 332) 一 (0.2)(0.525) 十 0.1= 一 0. 105 
单元 6 的 输出 为 : Os= rs =0.474 


每 个 单元 的 误差 计算 如 下 。 

单元 6 的 误差 为 : 
Errs=(0.474)(1—0.474)(1—0. 474)=0. 1311 
单元 5 的 误差 为 ; 

Err; = (0. 525) (1—0, 525) (0. 1311)( 一 0.2) 一 一 0.0065 
单元 4 的 误差 为 : 

Err, = (0. 332) (1—0. 332) (0, 1311)(—0. 3) = —0. 0087 
最 后 计算 权重 和 偏 倚 的 更 新 。 

was = Ws Aws = —0. 3 十 (0.9)(0. 1311) (0. 332) 一 一 0. 261 
wss = Wes + Awss 二 一 0. 2+ (0. 9) (0. 1311) (0, 525) = —0. 138 
wu = Wy tAwy =0. 2+ (0. 9)(—0. 0087) (1) =0, 192 

wis = Wis + Aw = —0. 3+ (0. 9)(—0. 0065) (1) = —0. 306 
wo = wa + Awa =0. 4+ (0. 9)(—0. 0087) (0) =—0. 4 

Wes = wes + Aws =0. 1+ (0. 9)(—0. 0065) (0) =0. 1 

Wy = Wa + Awsy =—0. 5+ (0. 9)(—0. 0087) (1) = —0. 508 
was = Was + Aws =0. 2+ (0. 9)(—0. 0065)(1) =0. 194 

Os =05 + AO; =0. 1+ (0. 9) (0, 1311) =0. 218 

0; =0; + Ad; =0. 2+ (0. 9)(—0. 0065) =0. 194 

0, =0, + AO, =—0. 4+ (0. 9) (—0. 0087) = —0. 408 


5.6.5 网 络 剪 枝 和 规则 抽取 


一 般 来 说 ,全 连接 的 神经 网 络 很 难 表达 ,如 果 有 个 输入 层 节 点 ,hh 个 隐藏 层 节点 ,m 个 
输出 层 节点 , 则 总 共 的 权重 数目 将 会 达到 h(n 十 m)。 如 果 想 从 神经 网 络 中 提取 规则 ,通常 
是 首先 进行 网 络 剪 枝 。 可 以 剪 去 对 训练 后 网 络 影响 最 小 的 加 权 链 ,以 简化 网 络 结构 。 例 如 ， 
如 果 删 除 一 些 加 权 链 而 不 导致 网 络 分 类 的 准确 率 下 降 , 则 应 该 删除 这 些 加 权 链 。 

当 训 练 后 的 网 络 已 剪 枝 , 某 些 方法 将 进行 链 、 单 元 或 活跃 值 聚 类 。 在 一 种 方法 中 ,使 用 
聚 类 发 现 给 定 训练 的 两 层 神经 网 络 中 每 个 隐藏 单元 共同 活跃 值 的 集合 ,然后 分 析 每 个 隐藏 
单元 这 些 活 跃 值 的 组 合 。 导 出 涉及 这 些 活跃 值 与 对 应 输出 单元 组 合 的 规则 。 类 似 地 ,研究 
输入 值 和 活跃 值 的 集合 ,导出 描述 输入 和 隐藏 单元 层 联系 的 规则 。 最 后 两 个 规则 的 集合 可 
以 结合 在 一 起 ,形成 IF-THEN 规则 。 当 然 ,其 他 算法 可 以 导出 其 他 形式 的 规则 。 


5.7 支持 向 量 机 


本 节 主 要 讲述 支持 向 量 机 ,支持 向 量 机 是 一 种 非常 流行 的 监督 学 习 算 法 ,简称 为 SVM。 
该 算法 可 以 针对 线性 和 非 线性 的 数据 。 它 利用 一 种 非 线性 转换 ,将 原始 训练 数据 映射 到 高 
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二 0. 525 


维 空间 上 。 在 新 的 高 维 空 间 中 , 它 搜 索 线 性 最 优 分 类 超 平面 ,或 者 说 是 搜索 一 两 个 不 同类 型 
之 间 分 离 的 决策 边界 。 通 过 非 线性 映射 将 数据 映射 到 一 个 足够 高 的 维度 上 ,来 自 两 个 不 同 
类 的 数据 总 可 以 被 一 个 超 平面 所 分 离 。SVM 使 用 支持 向 量 ( 基 本 训练 元 组 ) 和 边缘 (由 支持 
向 量 定义 ) 来 发 现 超 平面 。 

SVM 是 由 Vapnik 和 他 的 同事 在 1992 年 提出 ,其 基础 工作 早 在 20 世纪 60 年 代 就 已 经 
建立 ,其 中 包括 Vapnik 和 Chervonenkis 关于 统计 学 理论 的 早期 工作 。SVM 的 训练 时 间 一 
般 较 长 ,但 准确 度 往 往 很 高 。 主 要 是 由 于 它 能 够 很 好 地 对 复杂 的 非 线性 决策 边界 进行 建 模 
(间隔 最 大 化 ) 。SVM 与 其 他 模型 相 比 ,不 太 容 易 产 生 过 拟 合 的 现象 。SVM 可 以 用 于 预测 
和 分 类 ,目前 已 经 在 手写 数字 识别 、 对象 识别 .说 话 人 识别 ,以 及 基准 时 间 序 列 预测 检验 等 方 
面 得 到 了 广泛 的 应 用 。 


5.7.1 数据 线性 可 分 的 情况 


对 于 一 个 元 组 X ,假设 类 别 标记 有 十 1 和 一 1 两 种 。SVM 需要 找到 一 个 权 向 量 W= 
{wy rz yz 和 一 个 偏 傈 0, 当 X 类 别 标记 为 十 1 时 ,W。，XX 十 b 宇 0; 当 类 别 标记 为 一 1 
时 ,WW，X 十 6 二 0。 为 了 能 够 反映 分 类 的 信和 度 , 希 望 当 XX 类别 标 记 为 十 1 时 ,W，X 十 b 是 一 
个 尽 可 能 大 的 正 数 ;而 当 类 别 标记 为 一 1 时 ,W，X 十 b 是 一 个 尽 可 能 小 的 负数 。 
首先 引入 函数 边缘 和 几何 边缘 的 概念 。 给 定 一 个 训练 元 组 X;, 令 y; 是 其 类 别 标记 , 则 定 
义 该 训练 元 组 的 函数 边缘 如 下 : 
Ñ = yı (We. X; +b) (5-24) 
根据 设 定 ,元 的 值 实质 上 就 是 |W e XH, ROIA AN We TELE RI +1 
或 一 1 的 信和 度 。 
继续 考虑 W 和 4b, 如 果 按 比例 同时 增 大 W 和 65, 例 如 在 (W。，X; 十 5b) 前 面 乘 以 正 的 常数 
a, 那 么 (W。，X; 十 5) 会 扩大 相应 的 a 信 , 但 是 这 对 问题 求解 并 没有 影响 。 因 为 需要 求解 的 是 
W，Xi; 十 6 三 0, 同时 增 大 W 和 2 对 结果 没有 影响 。 所 以 为 了 限制 得 到 唯一 的 W 和 0b, 需 要 
引入 归 一 化 的 条 件 , 这 个 归 一 化 之 后 再 考虑 。 
上 述 定义 的 函数 边缘 是 针对 某 个 元 组 的 ,现在 定义 训练 集 上 的 函数 边缘 ,假设 训练 集 由 
元 组 Xi , 义 ;,… ,六 , 构 成 , 则 训练 集 上 的 函数 边缘 定义 为 : 
ae min e (5-25) 
接 下 来 引入 几何 间隔 ,如 图 5. 10 所 示 。 
点 BB 在 WX 十 b=0 的 分 割 面 上 , 且 是 点 A 在 该 分 割 面 上 的 投影 。 向 量 BA 的 方向 是 


W ,单位 向 量 为 1 多 开 。 设 A 点 为 Xi, 则 点 A 到 分 割 面 W .XX 十 b==0 的 距离 为 
_ |W.X;+6| 


7 一 Iwi (5-26) 
式 (5-26) 可 以 进一步 表示 为 : 
WwW b px 
Yi w: WT X: + WTP (5-27) 
BY LA AB || W || =1 时 ,几何 边缘 即 函 数 边缘 。 同样 ,可 以 定义 全 局 的 几何 边缘 : 
y= _min i (5-28) 
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A, 
(O) 具有 最 大 间隔 的 分 类 超 平面 
图 5. 10 ”基于 超 平面 的 分 类 示意 图 


SVM 的 目标 是 寻求 一 个 超 平面 ,使 得 离 超 平面 较 近 的 点 能 有 更 大 的 间距 。 我 们 不 是 考 
虑 所 有 的 点 都 尽 可 能 的 远离 超 平面 ,而 是 关心 让 离 超 平面 最 近 的 点 能 够 具有 最 大 的 间距 。 
可 以 形式 化 为 如 下 优化 问题 : 


max y 
YW,b 
sty (We Xi; +b) ÈY 
Iwl =1 


至 此 ,SVM HDR AE HOR WR OR A W A ,那么 对 于 一 个 未 知 元 组 ,就 可 
以 实现 分 类 。 这 个 分 类 器 称 为 最 优 边 缘分 类 器 。 现 在 的 问题 就 是 如 何 求解 W 和 0。 由 于 


约束 上 W | 1 不 是 凸 函数 ,通过 几何 边缘 和 函数 边缘 的 关系 7 一 下 页 站 改写 上 式 为 ， 


max I 
7 Web 


wi 


s.t.yiWeX;+b)>y 
这 时 的 目标 函数 仍然 不 是 凸 函数 ,仍然 无 法 使 用 优化 工具 求解 。 前 面 已 经 提 到 同时 增 
KW 和 4 对 结果 没有 影响 ,但 是 需要 的 是 W 和 2 的 确定 值 ,而 不 是 它们 的 一 组 倍数 值 , 因 


此 需要 限制 ,以 保证 最 后 的 解 是 唯一 的 。 为 了 简便 , 取 7? 一 1, 即 将 训练 集 上 的 函数 边缘 定 
义 为 1, 也 就 是 将 离 超 平面 最 近 的 点 的 距离 定义 为 本 去 。 这 样 求 开 市 和 的 最 大 值 也 就 是 
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AR |W | 的 最 小 值 。 则 优化 问题 可 以 进一步 改写 为 ， 
min |W? 
s.t.y;(W+X;+6) >1 
该 问题 是 一 个 典型 的 二 次 规划 问题 ,通过 优化 软件 可 以 直接 求解 。 支 持 向 量 指 的 是 离 


所 求 得 超 平面 最 近 的 那些 样本 点 。 
一 旦 求解 完成 后 ,可 以 根据 拉 格 朗 日 公式 将 最 大 边缘 超 平面 改写 成 如 下 决策 边界 : 


4 
d(XT)= > yia: X: XT +b (5-29) 
i=l 


其 中 ,y; 是 支持 向 量 X; 的 类 标号 ,X" 是 检验 元 组 ,a; 和 wb 是 由 上 述 的 优化 或 SVM 算法 自动 
确定 的 数值 参数 ,! 是 支持 向 量 的 个 数 。 


5.7.2 数据 线性 不 可 分 的 情况 


在 5.7.1 节 讨 论 了 对 线性 可 分 数据 分 类 的 SVM ,如 果 数 据 不 是 线性 可 分 的 ,如 何 通 过 
SVM 进行 分 类 呢 ? 可 以 扩展 上 述 的 线性 SVM ,对 线性 不 可 分 的 数据 创建 非 线 性 SVM。 这 
种 SVM 能 够 发 现 输入 空间 中 的 非 线性 决策 边界 。 具 体 如 何 扩展 呢 ? 主要 有 两 个 步 又。 第 
一 步 , 用 非 线性 映射 将 原 输 入 数据 变换 到 较 高 维 空间 。 第 二 步 ,在 新 的 空间 内 搜索 线性 分 离 
超 平面 。 可 以 用 线性 SVM 公式 求解 。 在 新 空间 找到 的 最 大 边缘 超 平面 对 应 于 原 空 间 中 非 
线性 的 分 离 超 曲面 。 接 下 来 介绍 如 何 将 数据 变换 到 新 的 较 高 维 的 空间 。 

首先 举 个 例子 ,有 一 个 三 维 输入 向 量 X= (zi ,zz ,x3)"7 ,定义 映射 p(X) = (Gi CX), 
2X) ,p(X), p(X) ps (XT EP p(X)=zi, p(X)=z, p(X) =235q (X= zi, 
p(X) Sri sgs(X) 二 1x3。 这 样 ,p(X) 将 三 维 输入 向 量 映 射 到 六 维 空间 Z 中 。 在 新 的 空 
间 中 决策 超 平 面 为 4(2Z) 二 W，Z 十 4b, 在 新 的 空间 中 利用 线性 SVM 求解 W 和 0, 然 后 替换 
回去 ,使 得 在 新 的 空间 中 的 超 平面 对 应 于 原来 三 维 输入 空间 中 的 非 线 性 二 次 多 项 式 
d(Z)=wzx Hw: Hw r tw (x1) Tws rizs werizs tbe 

现在 存在 两 个 问题 。 第 一 ,如 何 选 择 较 高 维 的 空间 进行 非 线 性 映射 ;第 二 ,如 何 减 小 计 
算 开 销 。 下 面 先 解决 第 二 个 问题 ,因为 在 映射 后 的 新 的 空间 中 求解 线性 超 平面 ,可 以 将 式 
(5-29) 中 的 X 简单 替换 为 p(X),X; 简 单 替换 为 p(X;)。 对 于 一 个 检验 元 组 ,需要 在 新 的 
空间 里 计算 p(X) 与 每 个 支持 向 量 P(X;) 的 点 积 。 在 训练 中 也 需要 多 次 计算 类 似 的 点 积 ,以 
便 找 出 最 大 边缘 超 平面 。 这 样 计算 开销 很 大 ,但 是 观察 式 (5-29) ,发 现 训 练 元 组 仅 出 现在 
点 积 PC(X )。9p(X) 中 。 可 定义 核 函 数 如 下 : 

开 (Xi Xi) 一 p(XD) p(Xi)= ¢ (Xi) p(X;) (5-30) 

这 样 每 当 形 如 p(X;)。g(X) 出 现在 训练 算法 中 时 ,就 用 K(X;,X; ) 来 蔡 换 它 , 所 有 的 
计算 都 在 原来 的 输入 空间 中 进行 ,这 个 维度 可 能 要 低 得 多 。 看 一 个 例子 ,假设 X.ZER, 
K(X.Z)=(X"Z)’ ,展开 得 : 
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n n 


K(X,Z)= (X'Z)? = (之 zx) (2 zj zi ) 
= b> (xix; (a z;) = p (X)"9(Z) 
eG Esk, aR 一 3, 则 
OCR) = (ti trsi Vi Ri Tast tote tysta Vg Ry Bi Ks Tasty 2y)" 
计算 高 维 的 (X)'p(Z) 需 要 O(n ) 时 间 , 而 计算 (XTZ)? 只 需要 O(z) 时 间 代 价 。 
实际 上 ,不 需要 知道 映射 o 究 况 是 什么 ,只 需 知道 核 函 数 K 即 可 。 下 面 讨 论 第 一 个 问 
题 。 因 为 定义 了 核 函 数 ,这 个 问题 也 就 归结 为 需要 选用 什么 样 的 核 函数 。 先 看 如 下 的 一 个 
核 函 数 : 
K(X,Z)= (X™Z+c)? = (X7Z)? + 2c(X™Z) 4-2 
= = S's (air; Cz: a+ D (VEe, ) (Vezi) +e 


i=l j=1 
TW n=3 时 ,相应 的 映射 为 : 
p(X)= (m1 T1 9X Lo 9X, T32 Tı 2 Xo 92 Xz 9X3 Lı 9X3 L293 X35 
2c zi,V2czs,V2cxs se)” 
其 中 参数 ch T — Bra A Bx x ARAE., E A SK PRB 
K(X,Z)= (X™Z+c)? (5-31) 

应 的 映射 后 的 新 空间 维度 为 Cs。 尽管 映射 后 的 新 空间 维度 是 O(n ), 但 是 计算 
ses Z) 只 需 花 费 O(n) 的 时 间 开 销 , 而 且 不 需要 知道 在 这 个 非常 高 维 的 空间 中 p(X) 具 体 
是 什么 表现 形式 。 式 (5-31) 称 为 d 次 多 项 式 核 。 

下 面 从 一 个 稍微 不 同 的 角度 来 看 核 函 数 。 直 观 上 来 说 ,p(XX) 和 9 (Z) 接 近 时 ,也 许 期 
望 核 函 数 K(X,Z) 二 p(X)"'y(Z) 较 大 。 相 反 地 , 当 G(X) Me (2Z) 比 较 远离 时 ,例如 这 两 
个 向 量 几乎 垂直 时 ,KK(X,.Z)=p (X) (Z) Ah. TAAN K (X.Z) p(X) M 
9(2Z) 相 似 性 的 一 个 度量 ,或 者 说 是 X 和 2Z 相似 性 的 度量 。 

由 这 种 直观 上 的 意义 ,对 于 某 个 学 习 问 题 ,可 以 提出 函数 K(X,Z), 该 函数 可 以 合理 地 
刻画 X 和 2 之 间 的 相似 程度 。 例 如 ,可 以 选择 

ll A) 


K(X,Z)= exp(— 7o 


这 是 一 个 合理 的 X 和 2 之 间 相 似 性 的 度量 。 如 果 值 接近 1, 那 么 表示 X AZ 很 接近 ， 
如 果 值 接近 0 ,那么 表示 X AZ 离 得 很 远 。 那 么 可 以 在 SVM 中 使 用 式 (5-32) 中 定义 的 K 
吗 ? 答案 是 肯定 的 , 式 (5-32) 定 义 的 函数 称 为 高 斯 核 , 它 对 应 于 一 个 无 穷 维 的 映射 函数 p。 

那么 现在 存在 这 样 的 一 个 问题 ,什么 样 的 K(X,Z) 是 一 个 有 效 的 核 函 数 呢 ? 即 
K(X,Z) 可 以 改写 成 pg (X)'y(Z) 的 形式 。 下 面 来 解决 这 个 问题 。 

假设 由 m 个 元 组 构成 的 集合 为 X= (Xi Xe Xn) ,将 任意 两 个 X; 和 X; 代 入 函数 
中 ,计算 K; 一 K(X;,X;)。 现 在 引入 mXm WEE H. HP i TB j 列 的 元 素 由 K; 来 定 
义 , 该 矩阵 称 为 核 矩 阵 。 假 设 K 是 一 个 有 效 的 核 函 数 : 

K; = K(X: Xi)= 9 (Xi) p(Xi)= f (Xi) "9( Xi) = K(X) Xi) 一 天 

EEEE H 是 一 个 对 称 和 矩阵 。 设 mr(X) 为 PCX) 的 第 & 维 坐标 ,QZ 一 (= ,za ，…,xw) 为 

任意 mm 维 向 量 , 则 
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因为 Z 是 任意 的 ,所 以 是 半 正 定 矩 阵 。 

因此 ,如 果 天 是 一 个 有 效 的 核 函 数 , 那 么 相应 的 核 矩 阵 © REY TE E E E o 
更 一 般 地 , 这 不 仅 是 一 个 必要 条 件 , 而 且 是 一 个 充分 条 件 , 即 如 果 对 任意 X = 
(CG ee pene ei K 是 一 个 有 效 的 核 函数 。 

需要 指出 的 是 , 核 函 数 不 仅 仅 使 用 在 SVM 上 ,但 凡 一 个 学 习 算 法 可 以 写成 只 有 输入 变 
量 之 间 的 内 积 形式 (z,z) ,就 可 以 使 用 核 函 数 K(X,Z) 去 替换 ,这 样 可 以 很 好 地 改善 算法 的 
性 能 。 

另外 ,SVM 也 可 以 用 来 解决 多 分 类 问题 。 给 定 mm 个 类 ,一 种 简单 的 方法 是 训练 个 分 
类 器 ,每 类 一 个 (分 类 器 学习 返 回 正 值 ,而 对 其 他 类 返回 负 值 )。 检 验 元 组 分 派 到 对 应 于 最 
大 正 距 离 的 类 。 


5.7.3 支持 向 量 机 和 神经 网 络 的 对 比 


目前 已 经 讨论 了 神经 网 络 和 支持 向 量 机 , 接 下 来 对 这 两 个 方法 进行 一 些 简单 的 对 比 。 

(1) SVM 是 一 个 相对 比较 新 的 概念 ,而 神经 网 络 是 一 个 相对 比较 旧 的 概念 。 

(2) SVM 是 一 个 确定 性 的 算法 ,而 神经 网 络 是 一 个 非 确定 性 的 算法 。 

(3) SVM 具有 很 好 的 泛 化 特性 ,而 神经 网 络 虽 然 有 较 好 的 泛 化 特性 ,但 是 没有 很 强 的 
数学 基础 。 

(4) SVM 可 以 使 用 二 次 规划 技术 进行 批量 学 习 , 而 神经 网 络 比较 容易 以 增 量 的 形式 进 
行 学 习 。 

(5) SVM 可 以 使 用 核 函数 对 复杂 的 函数 进行 学 习 , 而 神经 网 络 使 用 多 层 感知 器 的 方式 
学 习 复 杂 的 函数 。 相 对 而 言 ,'SVM 在 这 方面 技巧 性 更 高 。 


5.8 关联 分 类 
关联 分 类 是 基于 关联 规则 的 。 在 关联 分 类 中 ,关联 规则 的 产生 和 分 析 旨 在 用 于 分 类 。 
下 面 将 简要 介绍 关联 分 类 的 有 效 性 以 及 常见 的 关联 分 类 算法 。 
5.8.1 为 什么 有 效 


关联 分 类 为 什么 有 效 呢 ? 首先 关联 规则 表现 了 频繁 地 出 现在 给 定数 据 集中 的 属性 - 值 
‘lll: 


对 之 间 的 强 关联 关系 。 关 联 分 类 搜索 频繁 模式 (属性 - 值 对 的 合 取 ) 与 类 标号 之 间 的 强 关 联 。 
由 于 关联 规则 考察 了 多 属性 之 间 的 高 置信 度 关联 ,这 种 方法 可 以 克服 决策 树 归 纳 一 次 只 考 
察 一 个 属性 的 局 限 性 。 已 经 有 研究 表明 ,关联 分 类 诸如 C4. 5 等 传统 的 分 类 方法 更 加 准确 。 

一 般 地 ,关联 规则 挖掘 是 一 个 两 步 的 过 程 。 第 一 步 是 频繁 项 集 挖掘, 它 搜索 反复 出 现在 
数据 集中 的 属性 - 值 对 的 模式 ,其 中 每 个 属性 - 值 对 看 作 项 ,多 个 属性 - 值 对 形成 频繁 项 集 。 第 
二 步 是 规则 产生 , 它 分 析 频 繁 项 集 , 以 便 产 生 关联 规则 。 所 有 的 关联 规则 在 准确 率 (或 置信 
度 ) 和 它们 实际 代表 的 数据 集 的 比例 (或 支持 度 ) 方 面 必须 满足 一 定 的 标准 。 分 类 是 基于 对 
一 组 关联 规则 的 评价 。 在 关联 分 类 中 ,关联 规则 可 以 表示 成 如 下 形式 : 

Pi A pee A bi > "Awss = C"Cconf ,sup) 

其 中 项 p; 是 形 如 (A;,v) 的 属性 - 值 对 ,其 中 A; 是 属性 , 取 值 为 wv。 规则 的 前 件 是 项 pi ,ps ，…， 
pi 的 合 取 (nn 三 1,n 是 数据 中 元 组 的 属性 数目 ) , 且 与 类 标记 C 相关 联 。conf 是 表示 规则 的 置 
信 度 , 它 是 指 在 数据 集中 满足 规则 前 件 的 元 组 中 ,具有 类 标记 C 的 元 组 所 占 的 百分比 。sup 
是 表示 规则 的 支持 度 , 它 是 指 在 数据 集中 满足 规则 前 件 且 具有 类 标记 C 的 元 组 所 占 的 百 
分 比 。 

TE 5. 8. 2 节 中 将 简要 介绍 一 下 常见 的 关联 分 类 算法 。 


5.8.2 常见 关联 分 类 算法 


最 早 .最 简单 的 关联 分 类 算法 是 CBA(Classification-Based Association ,基于 分 类 的 关 
联 )。 它 使 用 迭代 的 频繁 项 集 挖掘 方法 ,类 似 于 Apriori 算法 ,多 遍 扫描 数据 集 ,导出 频繁 项 
集 用 来 产生 和 测试 更 长 的 项 集 。 在 找 出 满足 最 小 置信 和 度 和 最 小 支持 度 阔 值 的 规则 完全 集 
后 ,分 析 分 类 器 中 的 内 容 。CBA 使 用 启发 式 方法 构造 分 类 器 ,规则 按照 它们 的 置信 度 和 支 
持 度 递减 优先 级 组 织 。 如 果 规 则 集 具 有 相同 的 前 件 , 则 选取 具有 最 高 置信 度 的 规则 代表 该 
集合 。 实 验 表 明 ,CBA 在 大 数据 集 上 性 能 要 优 于 C4. 5。 

CMAR (Classification based on Multiple Association Rules, 基 于 多 关联 规则 的 分 类 ) 
在 频繁 项 集 挖掘 和 分 类 器 构造 方面 都 不 同 于 CBA. CMAR 采用 FP 增长 算法 的 变形 来 发 
现 满足 最 小 支持 度 和 最 小 置信 度 阔 值 的 规则 完全 集 。 在 分 类 上 人 它 是 基于 对 多 个 规则 的 统计 
分 析 。 

CPAR(Classification based on Predictive Association Rules, 基 于 预测 的 关联 规则 分 
类 ) 采 用 了 与 CBA 和 CMAR 不 同 的 方法 产生 规则 , 它 基于 称 作 FOIL 的 分 类 规则 产生 算 
法 。 在 分 类 时 ,如 果 多 个 规则 满足 新 元 组 X, 那 么 CPAR 将 这 些 规则 按 类 分 组 ,然后 根据 期 
望 准 确 率 使 用 每 组 中 最 好 的 个 规则 来 预测 类 标记 。 由 于 CPAR 产生 的 规则 比 CMAR 少 
得 多 ,因此 对 于 大 的 数据 集 ,CPAR 要 更 加 有 效 。 


5.9 分 类 准确 率 


在 利用 某 个 算法 ,针对 训练 数据 集 建立 了 分 类 器 或 预测 器 后 ,需要 评估 该 分 类 器 预测 未 
知 数据 的 准确 率 。 也 可 能 是 试验 了 不 同 的 方法 建立 了 多 个 分 类 器 (预测 器 ) ,并 希望 比较 它 
们 的 准确 率 。 什 么 是 准确 率 ? 如 何 估计 ? 有 没有 提高 学 习 模型 准确 率 的 策略 ? 接 下 来 将 讨 
论 如 何 解决 这 些 问题 。 
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5.9.1 估计 错误 率 


分 类 器 在 给 定 检验 集 上 的 准确 率 是 分 类 器 正确 分 类 的 检验 集 元 组 所 占 的 百分比 。 有 时 
也 称 为 总 体 识 别 率 。 也 可 以 说 分 类 器 M 的 误差 率 或 误 分 类 率 为 1 一 AccCM) ,其 中 AccCM) 
是 M 的 准确 率 。 如 果 使 用 训练 集 评估 模型 的 误差 率 , 则 该 值 称 为 再 代入 误差 。 这 种 误差 是 
实际 误差 率 的 乐观 估计 ,对 应 的 准确 率 也 是 乐观 的 ,因为 并 未 在 没有 见 过 的 元 组 上 进行 过 
检验 。 

准确 率 度量 也 不 是 适用 于 所 有 的 情况 。 例 如 ,已 经 训练 过 的 分 类 器 将 医疗 数据 元 组 分 
类 为 cancer 和 not_cancer。90% 的 准确 率 似乎 对 分 类 器 来 说 已 经 相当 准确 了 ,但 是 ,如 果实 
际 上 只 有 3%~~4% 的 训练 元 组 是 cancer, 那 么 90% 的 准确 率 并 不 能 让 人 接受 。 例 如 该 分 类 
器 只 能 对 not_cancer 的 元 组 进行 正确 分 类 。 在 这 种 情况 下 需要 分 别 评估 分 类 器 识别 元 组 
cancer( 正 元 组 ) 的 情况 和 识别 元 组 not_cancer( 负 元 组 ) 的 情况 。 可 以 分 别 使 用 灵敏 性 
(Sensitivity) 和 特效 性 (Specificity) 度 量 ,灵敏 度 也 称 为 真正 率 , 即 正确 识别 的 正 元 组 的 百 分 
比 ;而 特效 性 是 真 负 率 , 即 正确 识别 的 负 元 组 的 百分比 。 另 外 ,可 以 用 精度 (Precision) 表 示 
标记 为 Cancer, 实 际 上 是 Cancer 的 元 组 的 百分比 。 


i  t pos 
sensitivity = 

pos 

et t_neg 

specificity = =—2 

p y neg 
precision = — tpos 
į t_pos + f_pos 


其 中 t_pos 是 真正 (正确 分 类 的 cancer 元 组 ) 数 目 ,pos 是 正 元 组 数 ;t_neg 是 真 负 (正确 分 类 
的 not_cancer 元 组 ) 数 目 ,neg 是 负 元 组 数 ; 而 f_pos 是 假 正 (错误 标记 为 cancer 的 not_ 
cancer 元 组 ) 数 目 。 可 以 证 明 准 确 率 是 灵敏 性 和 特效 性 的 函数 : 

pos neg 
pos + neg pos + neg 


真正 、 真 负 、 假 正和 假 负 也 可 以 用 于 评估 与 分 类 器 模型 相关 的 代价 和 收益 。 例 如 与 错误 
地 预测 癌症 患者 未 患 癌症 ( 假 负 ) 相 关联 的 代价 比 与 将 非 癌 症 患者 分 类 为 癌症 患者 ( 假 正 ) 相 
关联 的 代价 大 得 多 。 在 这 种 情况 下 可 以 赋予 每 种 错误 以 不 同 的 代价 ,使 一 种 类 型 的 错误 比 
男 一 种 类 型 重要 。 


5.9.2 装 袋 和 提升 


装 袋 和 提升 是 提高 分 类 器 和 预测 器 准确 率 的 一 般 策 略 。 如 图 5. 11 所 示 ,它们 都 是 采用 
集成 方法 的 例子 ,它们 将 & 个 学 习 得 到 的 模型 (分 类 器 或 预测 器 )M ,M,,… M, 组 合 起 来 ， 
创建 一 个 新 的 改进 的 复合 模型 M”。 装 袋 和 提升 均 可 用 于 分 类 和 预测 。 

装 袋 的 过 程 比 较 简 单 。 给 定 4 个 元 组 的 集合 ,如 果 集 成 需要 上 个 模型 , 则 该 算法 迭代 
次 。 对 于 每 次 迭代 i, 对 原始 元 组 集合 D 进行 有 放 回 的 抽样 ,总 共 抽 样 a 次 ,形成 训练 集合 
D;。 由 于 是 有 放 回 的 抽样 ,D 中 的 某 些 元 组 可 能 不 会 出 现在 D; 中 ,而 某 些 元 组 可 能 在 D; 中 
出 现 多 次 。 对 抽样 得 到 的 训练 集合 D;, 利 用 学 习 算 法 进行 学 习 , 得 到 一 个 分 类 器 M;。 对 一 
个 未 知 类 别 标记 的 元 组 X 进行 分 类 ,每 个 分 类 器 M; 返 回 它 的 类 预测 , 计 作 一 票 。 装 袋 分 类 
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accuracy = sensitivity + specificity 


Classification method(CM) 


Training data —» Classifier C 
CM 
Altered Training data ———> Classifier C1 
ij CM 
Altered Training data œ Classifier C2 


Aggregation … —» Classifier C* 
图 5.11 复合 模式 的 分 类 策略 示意 图 


M” 统计 得 票 , 并 将 得 票 最 高 的 类 赋予 X。 通 过 取 给 定 检验 元 组 每 个 预测 的 平均 值 , 装 袋 
也 可 以 用 于 连续 值 的 预测 。 

通过 装 袋 集成 的 分 类 器 在 准确 率 方面 通常 显著 优 于 从 原 训 练 数据 D 导出 的 单个 分 类 
器 。 它 对 于 噪声 数据 也 不 太 敏 感 , 鲁 棒 性 更 好 。 准 确 率 的 提高 是 由 于 复合 模型 降低 了 个 体 
分 类 器 的 方差 。 对 于 预测 ,可 以 从 理论 上 证 明 , 通 过 装 袋 集成 的 预测 器 可 以 提高 由 DD 导出 
的 单个 预测 器 的 准确 率 。 

在 提升 方法 中 ,对 每 个 训练 元 组 赋予 一 个 权重 ,并 迭代 地 学 习 上 个 分 类 器 。 在 学 习 得 到 
分 类 器 M; 后 ,更 新 权重 ,使 得 其 后 的 分 类 器 M4 更 加 关注 被 Mi; 误 分 类 的 训练 元 组 。 最终 通 
过 提升 方法 得 到 的 分 类 器 M* 组 合 每 个 个 体 分 类 器 ,其 中 每 个 个 体 分 类 器 投票 的 权重 是 其 
准确 率 的 函数 。 提 升 方法 也 可 以 进行 扩展 ,用 于 预测 连续 值 。 

下 面 介 绍 一 个 比较 常用 的 提升 算法 一 一 AdaBoost。 假 设想 通过 AdaBoost 提高 某 种 学 
习 方 法 的 准确 率 。 给 定数 据 集 D. CUE d 个 已 知 类 别 标记 的 元 组 (Xi,y1),(X; ,ys),*…， 
(Xa ,ya) ,其 中 y; 是 元 组 X ;的 类 标号 。 算 法 初始 时 ,给 每 个 元 组 设置 相等 的 权重 1/4, 紧 接着 
算法 进行 次 迭代 。 对 每 次 迄 代 i, 首 先 从 原始 数据 集 D 中 进行 有 放 回 的 抽样 ,总 共 抽 样 d 
次 ,形成 大 小 为 d 的 数据 集 D;。 每 个 元 组 在 抽样 中 选中 的 概率 由 它 的 权重 来 决定 。 利 用 学 
习 算 法 训练 抽样 得 到 的 数据 集 Di ,可 以 得 到 分 类 器 M;。 然 后 使 用 D; 作 为 测试 集 ,计算 Mi; 的 
误差 ,计算 公式 如 下 : 


a 
error (M; ) = y wj X err(X;) 
j=1 


其 中 err(X;) 表 示 元 组 X; 的 误 分 类 误差 ,如果 分 类 器 M; 将 元 组 X ;正确 分 类 则 err(X;) X 1, 
否则 它 为 0。 如 果 error(M, )>0. 5. WU FEM, ,并 重新 将 权重 初始 化 为 1/d, 进 而 重新 产生 
Mi; 和 否则 需要 对 训练 元 组 的 权重 根据 分 类 情况 进行 调整 。 如 果 元 组 错误 分 类 , 则 该 元 组 的 
权重 应 该 相应 增加 ,和 否则 应 该 相应 减少 。 元 组 的 权重 反映 的 是 将 元 组 正确 分 类 的 难 易 程度 ， 
权重 越 高 对 该 元 组 越 容 易 产 生 分 类 错误 。 当 使 用 这 些 权 重 值 产 生 下 一 次 的 训练 集 时 ,权重 
越 高 的 元 组 就 受到 更 多 的 重视 。 这 里 的 出 发 点 是 某 些 分 类 器 对 某 些 比较 难 分 类 的 元 组 可 能 
效果 比 其 他 分 类 器 好 ,这 样 更 关注 上 一 次 迭代 错误 分 类 的 元 组 ,可 以 在 产生 的 各 个 分 类 器 之 
间 进 行 互补 。 具 体 来 说 ,在 算法 第 i 次 迭代 进行 权重 更 新 时 ,对 每 个 正确 分 类 的 元 组 ,其 权 
重 乘 以 error (MM )/(1 一 error(M;))。 当 所 有 正确 分 类 的 元 组 的 权重 都 被 更 新 了 ,再 归 一 化 
每 个 元 组 的 权重 。 这 样 , 被 错误 分 类 的 元 组 权重 增加 ,而 被 正确 分 类 的 元 组 权重 减少 。 

当 利 用 AdaBoost 算法 得 到 一 个 集成 的 分 类 器 后 ,如 何 用 该 集成 分 类 器 进行 未 知 元 组 
X 的 类 别 标记 预测 呢 ? 装 袋 方法 中 每 个 分 类 器 都 有 相同 的 表决 权 , 而 提升 方法 与 之 不 同 ， 
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每 个 分 类 器 的 表决 权 都 赋予 了 一 个 权重 。 分 类 器 的 误差 率 越 低 , 它 的 准确 率 就 越 高 ,因此 它 


的 表决 权重 就 越 高 。 在 AdaBoost 算法 中 ,分 类 器 ML, 的 表决 权重 为 In SEE MO pp 


每 个 类 c ,将 元 组 X 的 类 别 标记 预测 为 类 的 分 类 器 的 权重 求 和 ,具有 和 最 大 的 类 就 是 元 组 
X 的 类 别 标记 。 

装 袋 和 提升 都 能 显著 提高 学 习 算 法 的 分 类 准确 率 ,但 是 提升 倾向 于 得 到 更 高 的 准确 率 。 
提升 由 于 关注 误 分 类 元 组 ,因此 有 可 能 出 现 过 分 拟 合 的 危险 ,而 装 袋 不 太 受 过 分 拟 合 的 


影响 。 
5.10 小 结 


分 类 与 预测 问题 是 数据 挖掘 领域 中 一 类 重要 的 应 用 问题 。 对 被 分 类 对 象 赋予 离散 型 的 
标 称 划分 就 是 分 类 ;在 连续 域 范围 上 计算 未 知 的 映射 值 就 是 预测 。 本 章 重 点 介绍 了 几 类 典 
型 的 分 类 和 预测 模型 ,包括 决策 树 .朴素 贝 叶 斯 分 类 方法 、 人 工 神经 元 网 络 支持 向 量 机 和 关 
联 分 类 等 。 在 实际 工作 中 , 面 对 不 同 的 被 分 类 问题 特点 ,可 根据 实际 情况 选择 最 好 的 分 类 方 
法 。 另 外 ,为 了 克服 训练 数据 集 规模 小 的 情况 ,本 章 中 介绍 了 交叉 验证 的 策略 。 针 对 某 一 个 
特定 问题 ,如 果 多 个 不 同 的 分 类 模型 都 呈现 出 弱 分 类 器 的 特征 ,本 章 还 介绍 了 以 AdaBoost 
为 代表 的 装 袋 与 提升 策略 ,以 实现 集成 多 个 弱 分 类 器 的 特点 ,提高 分 类 的 准确 度 。 
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第 6 章 RED 


聚 类 (Clustering) 是 通过 一 定 的 算法 将 原始 数据 划分 为 多 个 数据 簇 (Cluster) 的 过 程 。 
聚 类 分 析 (Cluster Analysis) 起 源 于 分 类 学 ,作为 人 类 认识 事物 的 基本 手段 之 一 ,已 经 在 多 
个 学 科 和 研究 领域 得 到 了 广泛 的 应 用 ,如 统计 学 、 生 物 学 等 学 科 以 及 计算 机 科学 中 的 人 工 智 
能 、 机 器 学 习 、 模 式 识别 .数据 挖掘 等 研究 领域 。 由 于 聚 类 分 析 方法 本 身 作 为 多 元 统计 分 析 
方法 的 一 部 分 ,其 中 一 些 成 熟 方法 如 K-Means 等 已 经 集成 在 一 些 商业 统计 软件 中 ,如 S- 
Plus,SPSS 等 。 

从 机 器 学 习 的 观点 来 看 , 聚 类 分 析 也 可 视 为 一 种 非 监督 学 习 (Unsupervised Learning) 
模型 。 分 类 是 一 种 监督 学 习 (Supervised Learning) 的 过 程 , 即 使 用 已 知 类 别 的 训练 数据 得 
到 一 个 分 类 的 模型 。 所 以 聚 类 与 分 类 的 主要 区 别 在 于 是 否 需 要 预先 定义 好 类 别 。 也 就 是 
说 , 聚 类 分 析 只 依靠 数据 本 身 来 确定 数据 之 间 的 关系 。 这 使 得 聚 类 分 析 有 很 大 的 优越 性 , 特 
别 适 合 处 理 大 量 的 原始 数据 。 

聚 类 分 析 方 法 的 应 用 体现 在 数据 挖掘 领域 各 类 问题 之 中 。 例 如 ,在 数据 的 预 处理 中 ,对 
于 简单 的 数据 ,可 以 通过 聚 类 方法 将 其 整合 到 数据 仓库 中 ;对 于 复杂 的 数据 ,可 用 聚 类 分 析 
构造 出 逻辑 库 ,使 数据 标准 化 ,方便 后 续 处 理 。 也 可 通过 聚 类 分 析 对 数据 的 不 同属 性 分 析 结 
果 发 现 数据 之 间 隐 含 的 有 趣 联系 。 

在 数据 挖掘 领域 中 , 聚 类 分 析 得 到 了 广泛 的 发 展 ,是 一 个 活跃 的 研究 方向 。 已 经 有 许多 
成 熟 的 方法 ,新 的 方法 也 在 不 断 涌现 。 本 章 结构 安排 如 下 : 6. 1 节 主 要 介绍 聚 类 分 析 的 定 
义 、 主 要 应 用 、 性 能 指标 以 及 所 使 用 的 数据 类 型 ;6. 2 节 主 要 介绍 聚 类 方法 的 分 类 和 聚 类 中 
相似 度 的 度量 方法 距离 度量 方法 ;6. 3 节 主 要 介绍 基于 划分 的 聚 类 方法 ;6.4 节 主要 介 
绍 基于 分 层 的 聚 类 方法 ;6. 5 节 主 要 介绍 基于 密度 的 聚 类 方法 ;6. 6 节 主 要 介绍 基于 网 格 的 
聚 类 方法 ;6.7 节 主 要 介绍 基于 模型 的 聚 类 方法 ;6. 8 节 主 要 介绍 奇异 值 检测 方法 。 


6.1 聚 类 分 析 的 定义 和 数据 类 型 


6.1.1 聚 类 的 定义 


对 于 聚 类 分 析 ,给 出 一 个 形式 化 的 定义 。 
定义 1: 给 定 一 个 数据 集 DS (2; | 2; ER” iE Z.1Si<n} ,根据 一 定 的 规则 POR 


个 整数 & 和 一 个 矩阵 : 
bu * Pu 
M=|} “. : (6-1) 
Pu ° Pa 


k 
其 中 ,满足 D py =1 (i=1,2,…,n), 0p; <1, 
j=1 
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下 面 对 上 述 定义 作 几 点 说 明 : 

(1) 矩阵 M 中 第 i 行 表 示 数 据 x; 的 聚 类 结果 。 定 义 中 表明 了 最 一 般 的 情况 , 即 对 每 个 
数据 的 聚 类 结果 是 一 个 概率 分 布 ,zr; 以 pi; 的 权 值 属于 第 j 类 ,这 种 聚 类 也 称 作 模 糊 聚 类 
(Fuzzy Clustering) 。 通 常情 况 下 ,所 做 的 聚 类 分 析 都 是 互 斥 聚 类 (Exclusive Clustering) , 即 
py E {0:1} ,也 就 是 在 矩阵 M 中 的 数值 或 者 为 0 或 者 为 1。 由 于 和 Py =1 的 限制 ,M 的 每 
一 行 只 有 一 个 元 素 为 1, 标 明了 x; 的 聚 类 结果 。 

(2) 在 理想 状况 下 ,希望 聚 类 分 析 可 以 得 到 分 类 数量 &, 但 有 的 时 候 出 于 不 同 的 需要 ,一 
些 算法 需要 将 分 类 的 数量 & 作为 算法 的 一 个 输入 。 这 样 可 以 简化 算法 过 程 并 且 提 高 性 能 ， 
对 于 很 多 实际 问题 ,这 是 可 以 接受 的 。 

(3) 规则 械 决 定 了 聚 类 的 结果 ,希望 聚 类 分 析 得 到 的 结果 满足 下 述 的 条 件 : 同一 个 簇 
内 部 数据 样本 之 间 有 很 大 的 相似 性 ,但 是 不 同 簇 内 部 的 数据 相似 性 很 小 。 数 据 之 间 相 似 性 
是 通过 定义 一 个 距离 或 者 相似 性 系数 来 判别 的 ,当然 这 个 距离 可 以 是 常用 的 欧式 距离 ,也 可 
以 是 其 他 满足 一 定 条 件 的 度量 。 度 量 方法 将 在 后 面 详细 介绍 。 


6.1.2 聚 类 分 析 和 主要 应 用 


聚 类 分 析 是 一 个 根据 待 分 类 的 数据 构建 聚 类 模型 的 建 模 过 程 。 完 整 的 聚 类 分 析 主 要 包 
括 数据 预 处 理 ,特征 计算 和 抽取 、 聚 类 模式 发 现 以 及 结果 解释 4 个 阶段 。 

在 数据 预 处 理 阶段 ,主要 的 任务 是 将 由 问题 直接 得 到 的 原始 数据 在 去 除 品 音 的 基础 上 
标准 化 。 这 主要 包括 数据 的 属性 选择 .数据 清洗 以 及 数据 的 中 心 化 和 标准 化 。 属 性 选择 是 
指 恰当 地 从 数据 集中 选取 出 合适 的 字段 ,可 以 有 效 减少 计算 量 并 提高 聚 类 效果 。 数 据 清洗 
的 主要 任务 是 剔除 空 值 和 噪声 值 并 修正 数据 的 错误 。 所 谓 中 心 化 就 是 将 变量 的 观测 值 调整 
到 相同 的 基点 ,通常 在 每 个 数据 上 减 去 这 一 维 变量 的 平均 值 。 

特征 计算 和 提取 用 来 进行 数据 之 间 的 相似 性 度量 ,如 距离 或 是 相似 系数 。 使 用 者 根据 
需要 确定 度量 数据 距离 或 者 相似 性 的 方法 ,形成 表明 数据 关系 的 数据 结构 ,如 相似 矩阵 等 。 
这 种 特征 提取 有 时 候 是 基于 数据 本 身 的 ,如 基于 链接 的 聚 类 方法 。 更 一 般 的 情况 是 将 原始 
数据 向 特定 空间 映射 后 完成 的 。 

聚 类 模式 发 现 就 是 利用 不 同 的 聚 类 方法 得 到 聚 类 结果 。 没 有 一 种 聚 类 算法 适合 所 有 的 
数据 集合 。 通 常情 况 下 ,数据 的 聚 类 分 析 是 一 个 交互 的 过 程 , 有 时 需要 人 工 的 干预 。 首 先是 
可 以 利用 先 验 知识 辅助 分 析 ,还 可 以 结合 具体 的 问题 ,对 一 些 参数 给 予 限制 。 随 着 技术 的 发 
展 ,还 可 以 利用 可 视 化 的 方法 ,直观 地 看 到 数据 的 隐 含 关系 。 这 对 于 快速 准确 的 分 析 是 十 分 
有 帮助 的 。 

聚 类 分 析 的 常规 应 用 主要 在 传统 的 模式 识别 上 ,空间 地 理 信息 系统 (GIS) 的 数据 分 析 、 
经 济 学 和 互联 网 数据 分 析 等 。 例 如 ,在 GIS 中 ,通过 聚 类 发 现 特征 空间 来 建立 主题 索引 ;在 
空间 数据 挖掘 中 ,检测 并 解释 空间 中 的 簇 ;文档 的 自动 分 类 ;分 析 Web 日 志 数 据 来 发 现 相 似 
的 访问 模式 。 

在 市 场 销售 方面 ,可 以 帮助 市 场 人 员 发 现 客户 中 的 不 同 群体 ,然后 用 这 些 知 识 来 开展 一 
个 目标 明确 的 市 场 计划 ;在 土地 使 用 方面 ,在 一 个 陆地 观察 数据 库 中 标识 那些 土地 使 用 相似 
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的 地 区 ;在 保险 业 , 可 以 标识 那些 有 较 高 平均 赔偿 成 本 的 客户 ;在 城市 规划 方面 ,可 以 根据 类 
型 .价格 .地 理 位 置 等 来 划分 不 同类 型 的 住宅 ;在 地 震 研 究 领域 ,可 以 根据 地 质 断层 的 特点 把 
已 观察 到 的 地 震中 心 分 成 不 同 的 类 等 。 


6.1.3 聚 类 分 析 方 法 的 性 能 指标 


性 能 指标 表示 了 一 个 算法 的 优 劣 程度 ,那么 什么 是 一 个 好 的 聚 类 方法 ?” 直观 上 来 看 ,一 
个 好 的 聚 类 方法 要 能 产生 高 质量 的 聚 类 结果 ,也 就 是 能。 这 些 复 要 具备 以 下 两 个 特点 : 第 
一 ,同一 篮 内 相似 性 高 ;第 二 ,不 同 篮 间 相似 性 低 。 聚 类 结果 的 好 坏 取 决 于 该 聚 类 方法 采用 
的 相似 性 评估 方法 以 及 该 方法 的 具体 实现 ; 聚 类 方法 的 好 坏 还 取决 于 该 方法 是 否 能 发 现 某 
些 还 是 所 有 的 隐 含 模式 。 具 体 来 说 ,主要 的 性 能 指标 有 以 下 几 个 方面 : 

(1) 可 扩展 性 。 主 要 包括 聚 类 分 析 算 法 对 原始 数据 的 规模 和 维度 的 适应 性 。 也 就 是 要 
求 所 设计 的 聚 类 算法 不 仅 在 一 般 规 模 的 数据 集 上 有 良好 的 性 能 ,同时 要 求 在 大 规模 数据 上 
也 能 够 得 到 很 好 的 结果 。 在 数据 维度 方面 ,由 于 高 维 数据 计算 复杂 度 大 ,数据 稀 朴 ,因此 分 
析 的 难度 大 大 增加 。 理 想 的 聚 类 分 析 算 法 可 以 在 不 同 的 数据 维度 上 都 有 良好 的 表现 。 

(2) 自 适应 性 。 主 要 指 聚 类 算法 对 不 同 数据 类 型 的 处 理 能 力 、 对 参数 的 依赖 性 、 对 数据 
对 象 输入 顺序 是 否 敏 感 以 及 对 簇 形状 的 适应 性 。 

(3) 鲁 棒 性 。 指 算法 对 噪音 是 否 敏 感 ,因为 实际 的 分 析 数 据 不 是 理想 的 、 完 美的 。 数 据 
集中 一 定 包含 噪 声 数据 ,这 些 数据 会 对 聚 类 的 结果 产生 一 定 的 影响 。 理 想 的 聚 类 算法 应 该 
能 尽 可 能 克服 噪声 的 影响 ,从 而 得 到 真实 的 聚 类 结果 。 

(4) 可 解释 性 。 聚 类 的 结果 容易 解释 。 这 需要 算法 的 结果 可 以 给 出 直观 上 的 、 物 理 上 
的 解释 。 聚 类 分 析 的 结果 是 要 用 作 挖 掘 数据 所 隐 含 的 关系 。 聚 类 算法 不 仅 要 给 出 结果 ,还 
要 能 解释 所 得 到 的 结果 ,这 样 能 更 好 地 利用 数据 。 


6.1.4 聚 类 分 析 使 用 的 数据 类 型 


聚 类 分 析 中 常 使 用 的 数据 结构 主要 有 数据 矩阵 (Data Matrix) AIAI oe BE BM 
(Dissimilarity Matrix) 。 数 据 矩 阵 就 是 被 聚 类 的 数据 的 一 种 表示 方式 。 对 于 一 个 数据 集 
D> {2x; |x; ER" iE Zin} ,一 共有 个 数据 ,每 一 个 数据 有 m 维 。 那 么 可 以 使 用 Xx 
m 的 矩阵 表示 整个 数据 ,如 式 (6-2) 所 示 。 


Tı Tu Tiz Tim 
T2 Ta T22 °° Tm 

Data 一 | |=| 2 7" |! (6-2) 
Tn Tn Tn? Tm 


相 异 度 和 矩阵 用 于 存放 nn 个 对 象 两 两 之 间 的 相 异 程度 。 这 个 矩阵 一 般 是 一 个 nXn 的 矩 
阵 , 但 是 由 于 相 异 度 需 要 满足 一 定 的 条 件 , 因 此 相 异 度 和 矩阵 为 对 称 阵 ,而 且 对 角 线 上 的 值 相 
等 。 若 使 用 距离 作为 相 异 度 ,那么 对 角 线 上 的 值 为 0; 若 使 用 相似 系数 作为 度量 ,那么 对 角 
线 上 的 值 为 1, 如 式 (6-3) 所 示 。 
“1s 


dy 
da dz 
i s (6-3) 
da diz eee f A 

聚 类 分 析 使 用 的 数据 类 型 主要 有 区 间 标 度 变量 (Interval-Scaled Variables) .二 元 变量 
(Binary Variables)、 标 称 型 (Nominal) .序数 型 (Ordinal) 和 比例 型 变量 (Ratio Variables) 以 
及 混合 类 型 变量 (Variables of Mixed Types) 。 

由 于 原始 数据 各 个 属性 的 范围 .单位 等 各 不 相同 ,为 了 将 变量 的 观测 值 调整 到 相同 的 基 
点 ,通常 在 原始 数据 上 减 去 对 应 变量 的 均值 , 即 


(6-4) 
其 中 


= is = 
Xj 二 aA Xi (6-5) 


规范 化 是 在 中 心 化 的 基础 上 再 作 变 换 , 确 保 变 量 的 变化 范围 相等 。 常 用 的 规范 化 方法 
有 最 大 值 归 一 化 .总 和 规范 化 ,均值 标准 差 规 范 化 以 及 极 差 规范 化 。 


1. 最 大 值 归 一 化 


将 数据 对 象 的 每 一 维 属性 除 以 该 属性 上 的 最 大 值 。 这 种 方法 将 数据 归 一 化 到 一 1 一 1 
之 间 。 这 种 方法 对 于 数据 服从 均匀 分 布 的 效果 较 好 ,但 是 对 于 噪声 的 处 理 能 力 不 强 。 


y= ij (6-6) 


max | zs | 
i 


2. 总 和 规范 化 


将 数据 对 象 的 各 个 分 量 除 以 全 体 数 据 在 这 个 分 量 的 总 和 。 这 种 方法 得 到 的 结果 使 得 全 
体 数据 在 每 个 分 量 上 的 和 都 为 1。 计算 方法 如 下 : 


/ xy 


1 一 一 一 (6-7) 
> Ti 
3. 均值 标准 差 规范 化 


这 种 规范 化 方法 特别 适用 于 数据 服从 正 态 分 布 这 种 情况 。 这 种 规范 化 方法 得 到 的 数据 
均值 为 0, 方 差 为 1。 计 算 方 法 如 下 : 
r= HA (6-8) 


4. 极 差 规范 化 


这 种 规范 化 方法 使 得 数据 的 最 大 值 为 1, 最 小 值 为 0。 
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= ä i (6-9) 


R; = maxz; 一 min zy (6-10) 


6.2 流 聚 类 方法 分 类 与 相似 性 质量 


6.2.1 聚 类 分 析 方 法 分 类 


聚 类 方法 主要 包括 基于 划分 的 方法 .基于 分 层 的 方法 .基于 密度 的 方法 .基于 网 格 的 方 
法 和 基于 模型 的 方法 。 

基于 划分 的 方法 是 一 种 自 顶 向 下 的 方法 ,对 于 给 定 的 nn 个 数据 ,将 其 划分 为 个 簇 ,使 
得 每 个 数据 属于 且 仅 属于 一 个 复 。 在 每 个 篮 之 中 的 数据 相似 ,而 不 同 篮 之 间 的 数据 不 相似 。 
通常 这 种 类 型 的 算法 要 求 给 出 数据 分 类 的 个 数 ,也 就 是 划分 数 E。 如 果 穷 举 各 种 划分 方法 ， 
再 计算 每 种 划分 方法 的 优 劣 是 不 可 行 的 ,因为 这 样 计算 的 复杂 度 很 高 ,对 于 数量 稍 多 的 数据 
就 失效 了 。 所 以 可 行 的 算法 都 采用 了 启发 式 的 方法 , 即 在 开始 的 时 候 先 将 数据 进行 一 次 划 
分 ,在 此 基础 上 尝试 改变 数据 的 划分 ,也 就 是 在 不 同 篮 之 间 移 动 一 些 数据 。 再 根据 某 一 个 准 
则 函数 ,通过 不 断 的 迭代 而 得 到 最 终 的 结果 。 常 用 的 方法 有 上 -均值 算法 k -中 心 点 算法 和 
CLARANS 等 。 在 k- 均 值 算法 中 ,每 个 徐 用 该 簇 中 的 数据 均值 来 表示 。 在 k- 中 心 点 算法 
中 ,使 用 该 簇 中 的 距离 中 心 点 最 近 的 一 个 数据 对 象 来 表示 每 个 徐 。 这 两 种 方法 在 中 小 规模 
的 数据 并 且 数 据 的 分 布 为 大 小 相近 的 球形 簇 时 效果 较 好 。 

基于 分 层 的 方法 总 体 上 看 包含 分 裂 层 次 聚 类 方法 和 聚集 层次 聚 类 方法 。 分 裂 层 次 聚 类 
方法 是 一 种 自 项 向 下 的 方法 ,而 聚集 层次 聚 类 方法 是 一 种 自 底 向 上 的 方法 。 由 于 划分 的 单 
向 性 ,这 种 方法 的 最 大 困难 在 于 聚 类 过 程 中 的 分 裂 和 合并 等 操作 的 选择 。 不 适宜 的 分 裂 和 
合并 会 影响 算法 的 聚 类 结果 。 每 次 的 合并 和 分 裂 都 需要 检验 大 量 的 数据 对 象 和 聚 类 ,计算 
量 较 大 ,算法 效率 较 低 。 常 用 的 层次 聚 类 方法 主要 有 最 短 距 离 法 、 最 长 距离 法 、BIRCH 、 
CURE 以 及 Chameleon 等 方法 。 分 层 聚 类 方法 有 利于 发 现 链 状 簇 。 

基于 密度 的 方法 主要 思想 为 : 只 要 一 个 区 域 中 的 点 密度 大 于 某 个 阅 值 ,就 将 其 加 入 相 
邻 的 能 中 。 基 于 密度 的 方法 通过 不 断 地 寻找 被 低 密度 分 割 的 高 密度 区 域 来 达到 聚 类 的 目 
的 。 这 种 方法 可 以 用 于 消除 数据 中 的 噪声 。 常 用 的 基于 密度 的 方法 有 DBSCAN OPTICS 
M DENCLUE 等 。 

基于 网 格 的 方法 将 对 象 空间 划分 为 有 限 数目 的 网 格 单元 以 形成 网 格 结构 。 所 有 的 聚 类 
都 是 在 网 格 上 完成 的 。 这 一 类 算法 的 处 理 速度 较 快 ,其 处 理 时 间 独 立 于 数据 对 象 的 数目 , 仅 
仅 依赖 于 量化 空间 的 单元 数目 。 缺 点 是 只 能 发 现 边界 是 水 平 或 者 是 垂直 的 聚 类 ,而 不 能 检 
测 到 斜 边 界 。 不 适用 于 聚 类 高 维 的 数据 ,因为 单元 的 数目 随 着 维 数 的 增加 而 成 指数 级 的 增 
长 。 基 于 网 格 的 算法 存在 网 格 单元 的 数目 和 大 小 与 计算 精度 以 及 计算 复杂 度 的 平衡 问题 。 
单元 格 数目 太 少 则 精度 会 降低 ,单元 格 数目 太 多 则 算法 的 复杂 度 过 高 。 有 代表 性 的 算法 主 
要 有 STING, WaveCluster 和 CLIQUE 等 方法 。 

基于 模型 的 方法 就 是 假设 每 个 聚 类 数据 属于 某 种 模型 ,寻找 符合 模型 规律 的 数据 对 象 ， 
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从 而 完成 聚 类 。 这 种 方法 利用 统计 方法 ,试图 优化 给 定数 据 和 某 些 数学 模型 之 间 的 拟 合 关 
系 。 这 种 方法 主要 有 神经 网 络 法 和 统计 方法 。 


6.2.2 连续 变量 的 距离 与 相似 性 度量 


这 里 所 说 的 距离 是 指 在 聚 类 定义 中 所 需要 的 界定 数据 之 间 相 似 性 的 度量 。 一 般 的 ,每 
个 数据 点 都 以 一 个 向 量 表示 ,所 以 距离 应 该 定义 为 两 个 向 量 的 函数 。 由 于 表示 数据 点 的 向 
量 的 不 同类 型 ,如 连续 的 、 离 散 的 或 者 是 两 者 混合 形式 的 ,距离 的 定义 也 应 该 具有 不 同 的 形 
式 。 但 是 由 于 聚 类 问题 的 需要 ,距离 应 该 满足 以 下 条 件 : 
(1) 自 反 性 , 即 Y x;ED, 有 
Dis(zxi,xi)= 0 (6-11) 
(2) 对 称 性 , 即 Y xr E D.A 
Dis(zi zi) 王 Dis(ziyzi) (6-12) 
(3) 正定 性 , 即 V 23.2, © DA 


Dis (x; sx; ) > 0 (6-13) 
(4) WARS MASE rjr ED A 
Dis (x; +2; )+ Dis (x; +22) = Dis (xi sxx ) (6-14) 


设 需要 聚 类 分 析 的 数据 对 象 为 zz ttt 9 ty ody BEAR; s; AY BE» WUT LG RE X AY 
距离 写成 如 下 矩阵 : 
du dy … din 
dn dx … do 


D= (6-15) 


dm dm … dm 
H FRE ab rs PS he BET ALB HE OD Pa PE EE EV Be = fi AS SRE BE AL 
阵 是 一 个 对 称 矩 阵 , 且 对 角 线 上 的 元 素 为 0。 常用 作 距 离 度 量 方法 有 Minkowski 距离 、 
Euclidean 距离 和 余弦 距 离 等 ,常用 距离 定义 如 表 6. 1 所 示 。 
表 6.1 各 类 距离 的 定义 


名 称 定 义 
= a 
Minkowski 距离 D; = ( by | £a » TA | ) E 
k=l 
a ï 
Euclidean 距离 D; = ( » | ze sza |? ) F 
k=1 
z 
City-block 距离 D; = 2 | za — za | 
= 
切 比 雪夫 距离 Dy = max | za — zz | 
Mahalanobis 距离 Dy = (1: — zj)" S? (a; — z ) -S 为 协 方差 矩阵 
_ n LG =a, )+ (aj — 2) | 
点 对 称 距 离 D= mn ae al lay = 
jži 


表 中 的 第 2、3、4 行 这 三 个 定义 都 是 Minkowski 距离 在 n 取 特 定 值 的 结果 。 例 如 , 当 
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7 一 1 时 的 Minkowski 距离 退化 为 City-block 距离 ,也 称 为 绝对 距离 ; 当 n 二 2 时 的 
Minkowski 距离 退化 为 Euclidean 距离 3°34 n=OM AY Minkowski 距离 就 是 切 比 雪夫 距离 。 
Minkowski 距离 是 在 聚 类 分 析 中 使 用 最 多 的 距离 ,但 是 其 存在 着 两 个 明显 的 缺点 : 第 一 ,各 
个 指标 和 单位 相关 ;第 二 ,没有 考虑 指标 之 间 的 关联 。 

Mahalanobis 距离 是 1936 年 由 印度 统计 学 家 Mahalanobis 引入 的 。 这 种 距离 在 多 元 统 
计 分 析 中 有 十 分 重要 的 作用 。Mahalanobis 距离 克服 了 Minkowski 距离 的 缺点 , 它 可 以 排 
除 各 个 指标 之 间 的 相关 性 干扰 ,也 不 受 指标 单位 的 影响 。 同 时 ,Mahalanobis 距离 具有 线性 
变换 下 的 不 变性 。 也 就 是 说 ,在 对 原始 数据 做 线性 变换 后 ,得 到 的 Mahalanobis 距离 与 原来 
一 样 。 但 是 Mahalanobis 距离 需要 计算 协 方差 矩阵 ,由 于 计算 量 较 大 ,这 使 得 其 不 适用 于 处 
理 大 规模 的 数据 。 

相似 系数 可 以 作为 数理 度量 的 另 一 种 方法 ,两 个 数据 越 相 近 , 那 么 相似 系数 越 接近 1， 
否则 越 接 近 0。 相 似 系数 应 该 满足 以 下 条 件 : 

(1) 自 反 性 , 即 Y x;ED, 有 


Sim(ziyzi) 一 1 (6-16) 
(2) 对 称 性 , 即 VzizED, 有 
Sim(x:+2;)= Sim(x;+2:) (6-17) 
(3) 归 一 化 , 即 Y zi,z;ED, 有 
o< Simona (6-18) 
(4) = fA ARE BI rjr ED. A 
Sim (x: sx; )+ Sim (zj s£: ) Sim (xi sx ) (6-19) 


Be is BERS AP TY BET BR ary ote 9 0 ,x osy BEAK so RIBES «WU DG SH 2 AS 
相似 性 写成 如 下 和 矩阵; 


| e a (6-20) 


S S E Sa 


由 于 聚 类 分 析 中 ,根据 相似 性 系数 的 性 质 , 易 知 矩阵 S 是 一 个 对 称 矩 阵 , 且 对 角 线 上 的 
元 素 为 1。 
Pearson 距离 和 余弦 距离 都 属于 相似 系数 ,定义 如 表 6. 2 所 示 。 


表 6.2 Pearson 系数 和 余弦 系数 的 定义 


Pearson 系数 Si 


余弦 系数 Sj = cosa = Ti y 
[æ f i T 


= 1233+ 


6.2.3 二 元 变量 与 标 称 变量 的 相似 性 度量 


二 元 变量 就 是 布尔 变量 ,其 取 值 只 能 取 0 和 1。 例如 ,一 个 二 元 变量 的 分 布 律 如 下 : 
1 0 sum 
1 a b a+b 
0 c d c+d 
sum atc b+d p 


其 中 每 个 对 象 有 pp 个 二 元 变量 , 且 


p=atb+ctd 
对 于 对 称 的 情况 ,也 就 是 如 果 一 个 二 元 变量 的 两 个 状态 是 同等 价值 的 ,具有 相同 的 权 
重 。 即 可 以 任 取 其 中 一 种 状态 编码 为 1 或 者 0。 可 以 采用 简单 匹配 系数 来 评价 两 个 对 象 之 
间 的 相 异 度 : 
de 
对 于 非 对 称 的 情况 , 即 变 量 的 两 个 状态 不 是 同样 重要 的 。 根 据 惯例 ,将 相对 重要 通常 也 
是 出 现 概率 比较 小 的 状态 编码 为 1 ,将 另 一 种 状态 编码 为 0。 对 于 非 对 称 的 二 元 变量 ,采用 
Jaccard 系数 来 评价 两 个 对 象 之 间 的 相 异 度 : 
b+e 


at heres = 
下 面 举 一 个 简单 的 例子 ,假设 有 三 条 数据 ,每 条 数据 表明 一 个 人 的 一 些 属 性 。 每 条 数据 
有 Gender, Fever 等 7 个 属性 ,表明 了 他 们 三 个 人 临床 症状 和 检测 的 结果 ,如 表 6. 3 所 示 。 
表 6.3 三 个 人 临床 症状 和 检测 的 结果 


Gender 是 一 个 对 称 的 二 元 变量 ,其 他 的 都 是 非 对 称 的 二 元 变量 。 将 值 Y 和 PP 编码 为 
1, 值 N 编码 为 0, 根据 Jaccard 系数 计算 得 : 
Oo+1 


d(jack.mary ) = 24041 0. 33 
d (jack, jim) = mo = 0.67 
d (jim, mary) = TEET = 0.75 


由 结果 可 知 ,Jim 和 Mary 的 相 异 度 最 大 ,所 以 他 们 两 个 不 太 可 能 有 相同 的 疾病 。 而 
Jack 和 Mary 最 有 可 能 有 相同 的 疾病 。 
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标 称 变量 (Nominal Variables) 是 二 元 变量 的 推广 , 它 可 以 具有 多 于 两 个 的 状态 ,例如 变 
量 map_color 可 以 有 red、yellow、blue 和 green 4 种 状态 。 有 两 种 计算 相 异 度 的 方法 : 
方法 1: 简单 匹配 方法 ,mm 是 匹配 的 数目 , p 是 全 部 变量 的 数目 ,那么 相 异 度 可 以 定义 
如 下 : 
di 
方法 2: 使 用 二 元 变量 ,为 每 一 个 状态 创建 一 个 新 的 二 元 变量 ,可 以 用 非 对 称 的 二 元 变 
量 来 编码 标 称 变量 。 


6.2.4 序数 和 比例 标 度 变 量 的 相似 性 度量 


一 个 序数 型 变量 可 以 是 离散 的 ,也 可 以 是 连续 的 。 离 散 的 序数 型 变量 类 似 于 标 称 变量 ， 
除了 它 的 M 个 状态 是 按照 有 意义 的 序列 排序 的 ,例如 职称 。 连 续 的 序数 型 变量 类 似 于 区 间 
标 度 变量 ,但 是 它 没有 单位 , 值 的 相对 顺序 是 必要 的 ,而 其 实际 大 小 并 不 重要 。 

序数 型 变量 相 异 度 的 计算 与 区 间 标 度 变 量 的 计算 方法 相 类 似 。 这 种 相 异 度 的 计算 分 为 
如 下 几 个 步 又 :首先 将 第 i 个 对 象 f er HEREA Ekri © {1,… ,Mj} 代 替 。 再 将 每 个 变 
量 的 值 域 映射 到 [0. 0,1. 0] 上 ,使 得 每 个 变量 都 有 相同 的 权重 。 这 是 通过 用 xyr Er yp HE SE 
现 。 最 后 用 前 面 所 述 的 区 间 标 度 变 量 的 任 一 种 距离 计算 方法 来 计算 。 

所 谓 比例 标 度 型 变量 ,就 是 总 是 取 正 的 度量 值 ,有 一 个 非 线 性 的 标 度 ,近似 的 遵循 指数 
标 度 , 例 如 Ae” RA Ae-”。 比 例 标 度 型 变量 计算 相 异 度 的 方法 如 下 :首先 采用 与 处 理 区 间 
标 度 变量 相同 的 方法 ,再 进行 对 数 变 换 ,对 变换 得 到 的 值 再 采用 与 处 理 区间 标 度 变量 相同 的 
方法 : 

yi =ln(xi) 


最 后 将 其 作为 连续 的 序数 型 数据 ,将 其 秩 作 为 区 间 标 度 的 值 来 对 待 。 
6.2.5 混合 类 型 变量 的 相似 性 度量 


一 个 数据 库 可 能 包含 了 所 有 上 述 这 几 种 类 型 的 变量 ,那么 可 以 用 以 下 公式 计算 对 象 i,j 
之 间 的 相 异 度 : 
X 5 (fda (f) 
dG 放 = 大 一 一 一 一 一 
2 85 (S) 
其 中 ,p 为 对 象 中 的 属性 变量 个 数 。 如 果 zi 或 zjy 缺失 ( 即 对 象 i 或 对 象 j 没有 变量 S 的 
值 ) ,或 者 zi 二 zj 二 0, 且 变量 f 是 不 对 称 的 二 元 变量 , 则 指示 项 55 (f)=03 WI , ò; (f)= 
1。 当 上 了 是 二 元 变量 或 标 称 变量 , 当 zr 一 zr 时 ,dz (f)=0; FW dy (f) 二 1。 若 是 区 间 标 


度 变量 .d; (了) [zs —z | o M f 是 序数 型 或 比例 标 度 型 时 ,首先 要 计算 秩 ri , 进 


max zi — MIN Taf 
h h 


> if 1i 
而 计算 zy 二 入 一 ;其 中 ry € {1,…,My}。 
f 


e125: + 


6.3 ”基于 分 割 的 聚 类 


基于 分 割 的 聚 类 方法 的 基本 思路 如 下 ,首先 将 一 个 包含 个 数据 对 象 的 数据 库 完 成 
AS SUT Rn) ,其 中 每 个 划分 代表 一 个 数据 艇 (Cluster) ,使 得 在 这 种 划分 下 , 某 个 事先 制定 
的 准则 最 优 ,从 而 达到 聚 类 的 目的 。 这 个 准则 在 最 优 的 情况 下 表明 每 个 复 中 的 对 象 相似 ,而 
不 同 簇 中 的 对 象 不 相似 。 由 于 这 个 过 程 会 遇 到 组 合 爆炸 的 问题 ,因此 不 可 能 对 实际 中 的 数据 
采用 穷 举 的 方法 。 一 般 设计 的 算法 都 采用 启发 式 方法 ,例如 经 典 的 kk- 均值 (Kk-Means) 和 -中心 
点 算法 。 这 两 种 算法 的 主要 区 别 是 如 何 选 取代 表 每 个 徐 的 点 ,k- 均 值 用 当前 簇 的 对 象 的 平均 
值 来 代表 这 个 簇 ,而 在 k- 中 心 点 算法 中 由 这 个 簇 中 离 中 心 最 近 的 数据 对 象 来 代表 这 个 簇 。 

k- 均 值 算法 的 主要 流程 是 : 首先 从 个 数据 对 象 中 随机 选 出 & 个 对 象 作为 初始 聚 类 的 
中 心 ,对 余下 的 每 个 对 象 ,根据 其 与 中 心 的 距离 和 相似 度 分 配 各 个 对 象 。 再 重新 计算 每 个 聚 
类 的 均值 ,这 个 过 程 不 断 重复 直到 标准 测试 函数 收敛 。 这 个 标准 测试 函数 为 : 

E= 2 |p= m|? 


Hop E HRKI RWF IR E AR, p 为 给 定 的 数据 对 象 ,mm 为 ; 类 对 象 的 平均 值 ,定义 
如 下 : 


算法 的 描述 如 下 : 

算法 6.1 上 -均值 算法 

输入 : 包含 n 个 对 象 的 数据 库 以 及 聚 类 的 个 数 右 最 小 误差 e。 

输出 : 满足 方差 最 小 标准 的 k 个 聚 类 。 

(1) 从 n 个 数据 对 象 中 随机 选 出 k 个 对 象 作 为 初始 聚 类 的 中 心 。 

(2) 将 每 个 簇 中 的 平均 值 作为 度量 基准 ,重新 分 配 数 据 库 中 的 数据 对 象 。 

(3) 计算 每 个 簇 的 平均 值 , 更 新 平均 值 。 

(4) 循环 (2) (3) ,直到 每 个 徐 不 再 发 生变 化 或 者 平均 误差 小 于 e 

例如 ,有 如 下 几 个 二 维 平面 上 的 数据 点 ,上 取 2。 首 先 ,随机 选取 两 个 数据 点 作为 初始 聚 
类 的 中 心 , 如 图 6. 1 中 所 示 的 两 个 圆 点 。 

计算 每 个 数据 与 当前 簇 中 心 的 相似 度 , 并 将 这 个 点 分 配 到 最 相似 的 簇 中 ,如 图 6. 2 所 示 。 


10 
9 


三 


SCH NKHEUDAXIBWOLC 


CH NW EUAN 


| 
4 | 
T ， 
$ 
| 
| 
| 012345678910 


图 6.1 k- 均 值 聚 类 算法 示意 图 一 图 6.2 kk 均值 聚 类 算法 示意 图 二 
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第 一 轮 计算 结束 后 ,形成 数据 聚 类 结果 ,如 图 6. 3 所 示 。 
重新 计算 每 个 徐 的 均值 ,如 图 6.4 所 示 。 


10 10 
9 9 

8 8 

7 7 

6 6 

5 e + 5 

4 4 

3 人 3 

2 2 

1 1 

0 0 
012345678910 012345678910 

图 6.3 kk- 均值 聚 类 算法 示意 图 三 图 6.4 kk- 均值 聚 类 算法 示意 图 四 


以 均值 为 新 的 基准 ,对 所 有 点 重新 分 配 其 所 属 复 ,如 图 6. 5 所 示 。 


第 二 轮 计算 结束 后 ,形成 新 的 数据 簇 中 心 和 聚 类 结果 ,如 图 6.6 所 示 。 如 此 和 迭代 下 去 ， 


直至 满足 算法 终止 条 件 。 
10 
9 
8 < 
<> 7 人 
6 08} 
<> + 5 + 
[> 4 
+ : 
2 
+ 1 
012345678910 O 1234567 8910 
图 6.5 k- 均 值 聚 类 算法 示意 图 五 图 6.6 -均值 聚 类 算法 示意 图 六 


k- 均 值 算法 是 解决 聚 类 问题 的 一 种 经 典 算法 ,这 种 算法 简单 高 效 ,算法 的 复杂 度 为 


O(tkn) ,其 中 是 数据 对 象 的 个 数 ,& 是 簇 的 个 数 , t 是 迭代 的 次 数 ,kn 


并 且 z< 和 2z。 而 相 


比 之 下 ,k- 中 心 点 算法 的 复杂 度 为 OCz(n 一 k)?) «CLARA 的 算法 复杂 度 为 Ok? 十 k(n 一 有 ))。 
k- 均 值 算法 也 存在 很 多 的 不 足 。 首 先 ,这 种 算法 在 计算 过 程 中 使 用 了 一 个 簇 的 均值 概 


念 ,这 就 要 求 均值 本 身 对 于 这 个 数据 是 有 意义 的 。 这 就 限制 了 算法 使 用 范 
属性 的 数据 ,均值 是 没有 定义 的 。 其 次 ,算法 的 结果 与 初始 值 的 选取 有 关 。 


围 ,例如 涉及 分 类 


算法 使 用 了 梯度 


下 降 的 方法 ,那么 一 些 初始 值 会 使 算法 得 到 的 聚 类 结果 都 是 近 优 的 。 如 果 要 得 到 最 优 解 , 需 
要 使 用 诸如 模拟 退火 算法 或 者 遗传 算法 等 方法 。 第 三 ,算法 的 输入 要 求 给 出 聚 类 的 个 数 , 
的 选择 常常 是 一 个 比较 困难 的 问题 ,如 涉及 到 的 具体 问题 有 关 , 用 户 在 使 用 -均值 算法 的 
时 候 需 要 尝试 不 同 的 上 所 计算 得 到 的 结果 。 第 四 ,算法 对 噪声 值 和 异常 数据 敏感 。 如 果 某 
个 异常 值 具有 很 大 的 数值 ,那么 会 严重 影响 数据 分 布 。 最 后 ,k- 均 值 算法 不 能 处 理 非 凸 形状 


的 数据 分 布 聚 类 问题 。 


自从 k- 均 值 算法 被 提出 以 来 ,已 被 广泛 地 进行 了 研究 。 目 前 ,提出 了 很 多 对 -均值 算 
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法 的 改进 算法 。 这 些 改 进 型 的 算法 在 算法 的 不 同 计算 阶段 上 有 所 改变 。 这 些 区 别 主 要 有 初 
始 & 个 平均 值 的 选择 方法 、 相 异 度 的 计算 、 簇 均值 的 计算 策略 等 。 例 如 ,k- 模 算法 为 了 处 理 
分 类 数据 ,对 于 均值 的 计算 改 用 模 来 蔡 代 计算 均值 ;用 新 的 相 异 度 计 算 方法 来 处 理 类 别 字 
段 ;用 基于 频率 的 方法 来 修改 簇 的 模 。k- 原 型 算法 综合 k- 均 值 和 kk- 模 算法 ,能 同时 处 理 类 
别 字段 和 数值 字段 。 

k- 中 心 点 算法 是 一 类 算法 ,与 k- 均 值 算法 不 同 的 是 ,这 类 算法 用 真实 的 数据 对 象 来 代表 
簇 中心 。 具 有 代表 性 的 是 最 早 提 出 的 k- 中 心 点 算法 一 一 PAM 算法 , 即 围绕 中 心 的 划分 算 
法 。 它 选用 每 个 簇 中 位 置 最 中 心 的 对 象 , 即 中 心 点 来 代表 这 个 簇 ,尝试 对 个 对 象 给 出 个 
划分 。 这 个 最 中 心 的 对 象 也 成 为 中 心 点 或 者 代表 对 象 。 算 法 首先 随机 选择 个 初始 代表 
点 ,然后 反复 用 非 代 表 对 象 来 代替 代表 对 象 ,试图 找到 更 好 的 中 心 点 ,以 改进 聚 类 的 质量 。 
更 好 的 中 心 点 将 使 非 中 心 点 与 中 心 点 之 间 的 距离 总 和 变 小 , 即 代 价 TC 变 小 。 在 每 次 迭代 
中 ,所 有 可 能 的 "对象 对 ”将 被 分 析 , 每 个 “对 象 对 ”中 的 一 个 对 象 将 作为 代表 点 , 另 一 个 作为 
非 代 表 性 对 象 。 对 可 能 的 各 种 对 象 ,估算 聚 类 的 质量 。 算 法 描述 如 下 : 

算法 6.2 k- 中 心 点 算法 

输入 : 包含 个 对 象 的 数据 库 以 及 聚 类 的 个 数 大 

输出 : K 个 聚 类 , 且 每 个 聚 类 中 所 有 对 象 与 其 中 心 点 的 相 异 度 总 和 最 小 。 

(1) 随机 选择 个 对 象 作为 初始 的 中 心 点 。 

D 对 由 非 代表 对 象 ph 和 代表 对 象 j 组 成 的 每 一 对 对 象 ,计算 j 被 hp 代 替 的 总 代价 Tn 

(3) 对 每 个 测试 对 : 

O 如 果 7cn<0 用 三 代替 j; 

© 将 每 一 个 非 代表 点 对 象 根据 与 代表 点 的 距离 分 配给 离 它 最 近 的 中 心 点 。 

(4) 重复 第 (2)、(3) 步 ,直到 不 发 生变 化 。 

PAM 算法 比 k- 均 值 算法 要 健壮 ,这 主要 是 由 于 PAM 算法 使 用 实际 数据 点 作为 聚 类 中 
心 点 ,而 噪音 和 离 群 点 对 中 心 点 影响 较 小 。 但 是 PAM 算法 对 小 规模 的 数据 效果 较 好 ,对 大 
规模 的 数据 则 表现 较 差 。 算 法 每 次 迭代 的 复杂 度 为 O(A(Cz 一 A):) ,其 中 & 上 是 聚 类 的 数量 ,mw 
是 数据 对 象 的 数量 。 

为 了 处 理 大 规模 的 数据 ,可 以 采用 CLARA 算法 ,CLARA 算法 的 主要 思想 是 用 整个 数 
据 的 一 个 样本 来 代表 整个 数据 ,再 使 用 上 面 提 到 的 k- 中 心 点 算法 计算 代表 对 象 。 在 实践 
中 ,可 以 采样 多 个 样本 分 别 计算 ,选取 其 中 最 好 的 结果 作为 最 终 的 结果 。 

CLARA 算法 的 优点 是 能 处 理 比 PAM 算法 大 的 数据 集 , 但 是 有 效 性 取决 于 样本 的 大 
小 ,如 果 样 本 的 选取 不 合适 ,那么 这 种 得 到 聚 类 结果 会 很 不 好 。 在 CLARA 的 基础 上 还 提出 
了 一 种 改进 算法 CLARANS。 这 种 方法 将 采样 技术 和 AUD IKEA HK. CLARA W 
法 在 计算 过 程 中 ,由 原 数据 采样 出 的 样本 数据 是 不 变 的 ,而 CLARANS 方法 在 计算 过 程 中 
不 断 改变 采样 的 样本 ,这 种 方法 增强 了 代表 点 的 局 部 搜索 过 程 , 可 以 发 现 更 好 的 解 。 聚 类 的 
过 程 可 以 被 描述 为 对 一 个 图 的 搜索 ,图 中 的 每 一 个 节点 是 一 个 潜在 的 解 , 即 & 个 中 心 点 的 集 
合 。 如 果 发 现 局 部 最 优 ,CLARANS 从 新 的 随机 选择 的 节点 开始 ,继续 寻找 新 的 局 部 最 优 
解 。 聚 焦 技 术 和 空间 访问 结构 可 以 进一步 改善 它 的 性 能 。 
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6.4 基于 层次 的 聚 类 


基于 层次 的 聚 类 方法 采用 距离 作为 衡量 聚 类 的 标准 。 该 方法 不 再 需要 指定 聚 类 的 个 
数 , 但 用 户 可 以 指定 希望 得 到 的 数据 簇 的 数目 作为 一 个 结束 条 件 。 

基于 层次 的 方法 主要 分 为 两 种 ,从 聚 类 的 过 程 来 看 ,分 为 自 底 向 上 的 聚集 方法 和 自 项 向 
下 的 分 类 方法 。 自 底 向 上 的 方法 首先 将 每 个 对 象 作为 一 个 簇 ,通过 不 断 合 并 这 些 基 本 的 簇 
从 而 形成 较 大 的 簇 ,直到 满足 某 个 条 件 为 止 。 大 多 数 基于 层次 的 方法 属于 这 一 类 ,而 自 顶 向 
下 的 方法 首先 将 所 有 的 对 象 看 成 是 一 个 簇 中 的 对 象 ,通过 一 定 准则 不 断 分 割 这 个 簇 形成 更 
小 的 簇 ,从 而 完成 聚 类 。 

例如 ,对 于 a、b、c、d、e 这 5 个 数据 对 象 ,聚集 的 方法 将 各 个 对 象 作为 原子 簇 ,在 计算 过 
程 中 不 断 合并 ,形成 最 终 的 结果 。 而 划分 方法 过 程 和 聚集 方法 相反 。 图 6.7 是 AGNES 和 
DIANA 聚 类 方法 示意 图 。 


Step 0 Step 1 Step 2 Step 3 Step 4 
| 


~ (AGNES) 


一 划分 
| | | | | (DIANA) 
Step 4 Step3 Step 2 Step 1 Step 0 


图 6.7 AGNES # DIANA 聚 类 方法 示意 图 


AGNES 算法 由 Kaufmann 的 Rousseeuw 首先 提出 ,AGNES 算法 使 用 单 链接 方法 和 
差异 度 和 矩阵 。 首 先 将 每 个 对 象 作为 一 个 簇 ,然后 合并 那些 具有 最 小 差异 度 的 节点 ,最 后 所 有 
的 对 象 合 并 形成 一 个 簇 。 

在 初始 状态 下 ,每 个 对 象 作为 一 个 单独 的 徐 。 首 先 将 距离 最 近 的 对 象 合并 为 一 个 簇 ,再 
将 临近 的 簇 进一步 合并 , 当 满 足 一 定 条 件 时 算法 终止 。AGNES 算法 示意 图 如 图 6. 8 一 
图 6.10 所 示 。 

DIANA 算法 首先 由 Kaufmann 的 Rousseeuw 提出 ,是 AGNES Wik AW Wiad FE. BE 
个 新 的 簇 只 包含 一 个 对 象 。DIANA 算法 示意 图 如 图 6. 11 一 图 6. 13 所 示 。 

一 个 树 状 图 可 以 作为 分 层 合并 的 过 程 直观 显示 ,如 图 6. 14 所 示 。 

其 中 每 个 叶子 节点 表示 一 个 对 象 , 称 为 一 个 单独 的 复 。 层 次 越 高 表明 在 不 断 合 并 后 ,这 
些 复 包 含 更 多 对 象 的 数据 复 。 而 一 次 完整 的 聚 类 就 是 根据 终止 条 件 , 在 某 一 层 剪断 这 棵 树 ， 
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从 而 得 到 聚 类 结果 。 
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图 6.14 树 状 图 形式 的 算法 示意 图 
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对 于 层次 聚 类 常用 的 距离 度量 方法 主要 有 最 小 距离 .最 大 距离 .均值 距离 和 平均 距离 。 
用 12 一 久 | 表 示 两 个 对 象 和 pp' 之 间 的 距离 ,n; REC, 中 对 象 的 数目 ,m; HC, 的 均值 。 
距离 的 定义 如 下 : 

最 小 距离 : dw (Ci Ci) 一 es |p—p'| 


最 大 距离 : dm (Ci Cj) = pe aX le- p| 


EC; PEC; 


均值 距离 : dincan (Ci +C;) = | mi — m; | 
HYPER: dig (CisC))= 1 S| p—p'| 


ni Nj peC# EC, 

如 果 算 法 使 用 的 是 最 小 距离 UU GBP RAN A RE E RAKAA. BS E HE 
个 阔 值 的 时 候 算法 停止 , 称 为 单 链接 法 。 使 用 最 小 距离 度量 的 聚合 增长 算法 也 称 为 最 小 生 
成 树 算法 。 当 一 个 算法 使 用 最 大 距离 度量 距离 的 时 候 , 称 为 最 远 邻 聚 类 算法 。 若 当 最 近 复 
的 距离 超过 某 个 阔 值 时 算法 停止 , 称 为 全 连接 算法 。 最 大 最 小 算法 代表 了 复 间 距离 度量 的 
两 个 极端 。 均 值 距 离 和 平均 距离 是 对 最 大 最 小 距离 度量 的 折 中 ,可 以 有 效 克 服 噪 音 和 离 群 
点 (奇异 值 ) 的 不 良 影响 。 

层次 方法 存在 几 个 方面 的 缺点 : 扩展 性 较 差 ,时间 复杂 度 至 少 是 OG’), AL RK 
过 程 是 不 可 逆 的 ,也 就 是 一 旦 一 个 合并 或 分 裂 被 执行 就 不 能 修复 。 还 有 一 些 算法 综合 了 层 
次 聚 类 和 其 他 的 聚 类 技术 ,主要 有 BIRCH、CURE 和 CHAMELEON 等 。 BIRCH 算法 增 
量 地 构造 一 个 CF- 树 ,并 不 断 调整 子 复 以 得 到 更 好 的 结果 。CURE 算法 是 一 种 针对 大 型 数 
据 库 的 高 效 聚 类 算法 ,采用 了 多 个 点 代表 一 个 簇 的 方法 ,能 有 效 减少 噪音 和 异常 值 的 影响 。 
CHAMELEON 通过 动态 建 模 的 层次 化 方法 进行 聚 类 。 

BIRCH 是 1996 年 由 Tian Zhang 首先 提出 来 的 。BIRCH 的 最 大 特点 是 能 利用 有 限 的 
内 存 资源 完成 对 大 数据 集 的 高 质量 聚 类 ,可 以 最 小 化 系统 的 输入 与 输出 的 代价 。BIRCH 采 
用 了 一 种 多 阶段 聚 类 技术 ,通过 对 数据 集 的 单 遍 扫描 产生 了 一 个 基本 的 聚 类 ,一遍 或 多 遍 的 
额外 扫描 可 以 进一步 改进 聚 类 质量 ,提高 算法 在 大 型 数据 集合 上 的 聚 类 速度 及 扩展 性 。 
BIRCH 同时 是 一 种 增 量 的 聚 类 方法 , 它 对 每 一 个 数据 点 的 聚 类 的 决策 都 是 基于 当前 已 经 处 
理 过 的 数据 点 ,而 不 是 基于 全 局 的 数据 点 。 它 用 到 了 聚 类 特征 (Clustering Feature, CF) 和 
聚 类 特征 树 (CF Tree) 两 个 概念 。BIRCH 算法 是 基于 距离 的 层次 聚 类 ,综合 了 层次 凝聚 和 
迭代 的 重 定位 方法 。 算 法 首先 采用 自 底 向 上 的 层次 算法 ,然后 用 迭代 的 重 定位 来 提高 聚 类 
结果 。 但 是 算法 也 存在 缺点 , 那 就 是 算法 只 能 处 理 数 值 型 数据 ;由 于 算法 中 使 用 了 半径 这 个 
概念 来 控制 边界 ,对 于 非 球状 的 簇 不 能 得 到 良好 的 结果 。 

BIRCH 上 肾 类 算法 的 核心 是 聚 类 特征 CF, 用 来 记录 子 簇 的 信息 。CF 树 就 是 由 CF 组 成 
的 ,CF 本 身 是 一 个 三 元 组 : 


CF=(N.LS.SS) 
其 中 ,NN 表示 这 个 簇 中 数据 对 象 的 数目 ,LS 是 N 个 节点 的 线性 和 ,SS 是 NN 个 节点 的 平方 
和 ,zs 表示 第 i 个 数据 对 象 的 第 j 个 分 量 , 具 体 的 定义 如 下 : 


N N 7 

LS = (Li sla set sla) = (È za, tarts >) Za) 
i=l i=l ie 
N N ae 

SS = (s1382 esa) = (2, rhe thes 之/ tia ) 
i=1 


i=l i=1 
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例如 ,假设 有 5 个 二 维 数据 对 象 ,分 别 是 (3,4)、(2,6)、(4,5)、(4,7) 和 (3,8), 则 对 应 的 

LS 和 SS 计算 如 下 : 
LS 二 (li,ls) 二 (3 十 2 十 4 十 4 十 3,4 十 6 十 5 十 7 十 8) 二 (16,30) 
SS= (515582) = (3? +2? +4? +4? +3? ,4?+6? +5? +7? +8?) = (54,190) 

对 应 的 CF fa] BOW : 

CF=(N,LS,SS)=(5,(16,30),(54,190)) 

聚 类 特征 树 的 结构 类 似 于 一 棵 B- 树 , 它 有 三 个 参数 :内 部 节点 平衡 因子 B, 叶 节点 平衡 
因子 L, 秘 半径 国人 和 值 T。 树 中 每 个 节点 最 多 包含 B 个 孩子 节点 ,第 i 个 节点 记 为 
(CF;,CHILD;) ,其 中 1<iB,CF; 是 这 个 节点 中 的 第 i 个 聚 类 特征 ,CHILD; 指 向 节点 的 
第 i 个 孩子 节点 ,对 应 于 这 个 节点 的 第 i 个 聚 类 特征 。 例 如 ,一 棵 高 度 为 3,B 值 为 7,L 值 为 
6 的 CF 树 的 例子 如 图 6. 15 所 示 。 


Root 
ja CF, CF, CF; CF; 
childl | child2 | child3 child6 
L=6 
Non-leaf node 
~~ 
CF, CF, CF; CF, 
childl | child2 | child3 child5 
Leaf node Leaf node 
| prev | CF, [cr;| oa | cr。 | nest PP prev | CF, [cr] ge | CF, | nest [> 
" 
图 6.15 一 棵 典型 的 聚 类 特征 树 
算法 步骤 如 下 : 


算法 6.3 Birch 算法 


(1) 扫描 数据 库 , 动 态 的 建立 一 棵 存放 在 内 存 的 吃 树 。 若 内 存 不 够 , 则 增 大 阅 值 ,在 原 树 基础 上 构造 一 

棵 较 小 的 树 。 

(2) 对 叶 节点 进一步 利用 一 个 全 局 性 的 聚 类 算法 ,改进 聚 类 质量 。 由 于 E 树 的 叶 节 点 代表 的 聚 类 结果 

可 能 不 是 自然 的 聚 类 结果 ,原因 是 给 定 的 阔 值 限制 了 艇 的 大 小 ,并 且 数据 的 输入 顺序 也 会 影响 到 聚 类 

结果 。 因 此 ,需要 对 叶 节点 进一步 利用 一 个 全 局 性 的 聚 类 算法 ,改进 聚 类 质量 。 

CURE 是 由 Guha 等 人 于 1998 年 提出 的 聚 类 方法 。 这 种 方法 有 两 个 主要 特点 : 首先 ， 
算法 检测 每 层 聚 类 的 复数 量 , 当 复 的 数量 达到 & 的 时 候 , 算 法 停止 创建 新 的 簇 ;其 次 ,CURE 
算法 在 每 个 艇 中 选择 了 多 个 代表 点 用 于 计算 与 其 他 簇 的 距离 ,对 形状 有 良好 的 自 适 应 性 。 
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算法 6.4 CURE 算法 流程 


O 从 数据 库 的 对 象 中 随机 采样 出 一 个 样本 s 

(2) 将 样本 5 分割 为 p 组 ,每 组 包含 有 s 思 个 数据 对 象 。 

O 对 每 个 划分 局 部 地 进行 聚 类 。 

(4) 通过 随机 采样 剔除 离 群 点 。 如 果 一 个 复 增 长 过 慢 , 则 去 除 这 个 簇 。 
(5) 对 局 部 的 簇 进行 聚 类 。 

(6) 记录 数据 的 聚 类 结果 。 


6.5 基于 密度 的 聚 类 


分 割 方法 有 利于 发 现 球形 复 , 层 次 划分 的 方法 有 利于 发 现 链 状 艇 。 为 了 发 现任 意 形状 
的 簇 ,提出 了 基于 密度 的 聚 类 方法 。 该 类 方法 将 每 个 簇 看 作 是 数据 空间 中 被 低 密度 区 域 分 
割 开 的 高 密度 对 象 区 域 , 也 就 是 将 篮 看 作 是 密度 相连 的 点 最 大 集合 。 具 有 较 大 的 优越 性 和 
灵活 性 ,有 效 地 克服 噪声 的 影响 ,并 且 只 需要 对 数据 进行 一 次 扫描 。 但 是 算法 需要 一 个 密度 
参数 作为 终止 条 件 。 主 要 的 算法 有 DBSCAN、OPTICS、DENCLUE fil CLIQUE 等 。 

基于 密度 的 聚 类 算法 常 涉及 到 两 个 参数 e 以 及 M。e 表示 邻 域 半径 ,M 表示 邻 域 中 数 
据 对 象 数目 冰 值 。 对 基于 密度 的 聚 类 主要 有 几 个 核心 概念 ,分 别 是 中 心 对 象 .直接 密度 可 
达 、 密 度 可 达 和 密度 相连 。 概 念 介 绍 如 下 : 

(1) 中 心 对 象 , 也 称 为 核心 对 象 。 是 指 在 半径 e 之 内 存在 超过 M 个 数据 对 象 的 数据 对 
象 。 也 就 是 核心 对 象 的 s 邻 域 之 内 存在 多 于 M 个 数据 对 象 。 这 表明 这 个 数据 对 象 所 在 位 
置 的 密度 较 大 。 

(2) 直接 密度 可 达 。 体 现 了 两 个 数据 对 象 的 关系 , 设 存在 两 个 数据 对 象 +、y, 其 中 z+ 是 
中 心 对 象 , 若 y 在 x 的 e 邻 域 之 内 , 则 称 > 直接 密度 可 达 x 。 

(3) 密度 可 达 。 对 于 两 个 数据 对 象 , 若 存在 从 x 到 y 的 一 条 由 直接 密度 可 达 点 组 成 的 
链 时 , 称 作 密 度 可 达 。 假 设 存在 一 个 对 象 链 户 ,ps，… s Pn Pi => Pa = D WMR pisa E&M p: E 
接 密度 可 达 的 ,那么 p 是 从 g 密度 可 达 的 ,如 图 6. 16 所 示 。 

(4) 密度 相连 。 对 于 两 个 数据 对 象 p.g, 若 存在 另 一 个 数据 对 象 O 且 p vq 分 别 密度 可 
达 O, 那 么 就 称 为 p 和 g 密度 相连 ,如 图 6.17 所 示 。 


图 6.16 密度 可 达 示 意图 图 6.17 密度 相连 示意 图 


Mester 等 人 提出 了 DBSCAN 算法 是 一 种 基于 密度 的 聚 类 算法 。 使 用 基于 中 心 的 方 
法 ,数据 集中 特定 点 的 密度 通过 对 该 点 的 特定 半径 之 内 的 点 计数 来 估计 。 这 样 就 将 数据 对 
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象 划分 为 核心 点 (Cor) .边界 点 (Border) 和 噪声 点 (Outlier) 。 其 中 核心 点 表明 其 是 密度 较 大 


区 域 的 点 ,噪声 点 是 密度 较 小 区 域 的 点 , 介 于 核 > gages 
心 点 和 噪声 点 之 间 的 是 边界 点 ,如 图 6. 18 D ( / 
所 示 。 order | a Je ea š 
算法 流程 如 下 : DOEN . 
算法 6.5 DBSCAN 算法 0 十 -一 
Ned!” E=1cm 
输入 : 数据 集 已 邻 域 半 径 se, 邻 域 中 数据 对 象 数目 py ae 
阅 值 M 
输出 : 密度 连通 类 。 图 6. 18 DBSCAN 算法 概念 示意 图 
算法 描述 : 


0) 任意 选取 一 个 点 己 

2) 在 参数 s 数 和 M 的 条 件 下 ,检索 所 有 密度 可 达 p 的 数据 对 象 。 

O 如 果 P 是 中 心 点 , 则 形成 了 一 个 聚 类 。 

(4) 如 果 p 是 边界 点 , 且 没 有 密度 可 达 p 的 数据 对 象 ,算法 访问 数据 库 中 下 一 个 数据 对 象 。 

(5) 算法 循环 直到 所 有 的 点 被 访问 过 为 止 。 

如 果 采 用 空间 索引 的 方法 ,DBSCAN 算法 的 计算 复杂 度 为 OClogn) sn 为 数据 对 象 的 
数目 ; 若 不 采用 空间 索引 ,计算 复杂 度 为 0(0zz ) 。 这 种 算法 对 于 用 户 输入 的 两 个 参数 es 以 及 
M 是 敏感 的 ,而 且 对 于 整个 数据 库 只 采用 了 一 组 s 以 及 M。 如 果 数 据 库 中 存在 不 同 密度 的 
簇 或 者 媒 套 簇 , 则 算法 不 能 处 理 。 为 了 解决 这 个 问题 ,有 人 提出 了 OPTICS 算 法。 


6.6 基于 网 格 的 聚 类 


基于 网 格 的 聚 类 方法 是 利用 多 维 网 格 数据 结构 ,将 空间 划分 为 有 限 数目 的 单元 。 这 些 
单元 可 以 作为 聚 类 分 析 的 基础 。 因 为 将 网 格 作为 处 理 单元 ,可 以 避免 数据 对 象 数 量 增多 的 
影响 ,使 算法 的 处 理 时 间 仅 仅 依 赖 于 量化 空间 中 每 一 维 上 的 单元 数 。 常 用 的 基于 网 格 的 方 
法 主要 有 STING, WaveCluster 和 CLIQUE。 这 种 方法 的 缺点 是 只 能 发 现 边 界 是 水 平 或 者 
垂直 的 聚 类 ,而 不 能 检测 到 斜 边界 。 基 于 网 格 的 方法 也 不 适用 于 处 理 高 维 数据 集 ,因为 网 格 
单元 的 数目 随 着 维 数 的 增加 而 呈 指 数 级 增长 。 所 有 基于 网 格 的 聚 类 方法 都 会 遇 到 网 格 单元 
数目 和 大 小 与 计算 精度 和 复杂 度 之 间 的 平衡 问题 。 

STING 是 Wang 等 人 于 1997 年 提出 的 一 种 基于 网 格 的 多 分 辩 率 聚 类 技术 。 它 将 空间 
划分 为 矩形 单元 ,不 同 层次 的 矩形 单元 代表 不 同 的 分 辩 率 。 这 样 就 形成 了 一 种 层次 结构 ,每 
个 高 层 单元 被 划分 为 低 一 层 的 单元 。 因 此 ,高 层 的 网 格 信息 可 以 通过 下 一 层 的 网 格 信息 得 
到 。 为 了 有 效 地 进行 查询 操作 ,需要 事先 计算 每 个 矩形 单元 的 属性 和 相应 的 统计 信息 。 聚 
类 网 格 如 图 6. 19 所 示 。 

这 些 统计 信息 主要 包括 技术 参数 Count. 均值 Means、 标 准 差 S、 最 小 值 Min、 最 大 值 
Max 以 及 相应 单元 中 的 分 布 ,包括 正 态 分 布 ,均匀 分 布 等 。 

基于 网 格 的 聚 类 算法 使 用 自 顶 向 下 的 方法 处 理 查询 。 首 先 ,在 层次 结构 中 选 定 一 层 作 
为 查询 处 理 的 起 始 节点 ,一般 情况 下 ,通常 选用 单元 数量 较 少 的 一 层 。 通 过 对 当前 层 每 个 单 
元 计算 与 给 定 查询 的 相关 程度 的 置信 度 值 , 进 而 只 处 理 相关 的 单元 ,重复 下 去 直到 最 低层 。 
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算法 的 主要 优点 是 网 格 的 计算 是 独立 查询 的 ,这 是 因为 计算 和 存储 的 统计 信息 是 根据 数据 
独立 计算 出 来 的 。 其 次 ,网 格 结构 有 利于 并 行 处 理 以 及 增 量 更 新 。 该 方法 的 计算 复杂 度 为 
OK) ,是 最 低层 网 格 单元 的 数量 。 其 缺点 主要 是 只 能 发 现 边 界 是 水 平 或 者 垂直 的 聚 类 ， 
而 不 能 检测 到 斜 边界 。 


图 6.19 聚 类 网 格 示意 图 


6.7 基于 模型 的 聚 类 


基于 模型 聚 类 方法 的 基础 假设 是 : 数据 符合 某 一 种 潜在 的 概率 分 布 。 这 种 方法 将 聚 类 
问题 看 作 是 数据 拟 合 某 一 种 分 布 的 优化 问题 。 基 于 模型 的 聚 类 方法 主要 有 神经 网 络 方法 和 
统计 学 方法 。 

概念 聚 类 是 一 种 基于 统计 学 和 人 工 智 能 的 方法 ,是 机 器 学 习 中 的 一 种 聚 类 方法 ,通过 对 
一 组 未 标记 的 对 象 产生 对 象 的 一 个 分 类 模式 ,为 每 组 对 象 发 现 特征 描述 。COBWEB 是 一 种 
简单 的 增 量 概念 聚 类 算法 。 通 过 分 类 树 ( 如 图 6. 20 所 示 ) 的 形式 创建 层次 聚 类 ,每 个 节点 代 
表 一 个 概念 ,包含 对 概念 的 概率 描述 ,概述 被 分 在 该 节点 下 的 对 象 。 概 率 描述 包括 概念 的 概 
RAJE P(A: =V; |Ci ) 的 条 件 概 率 , 这 里 A; 二 V; 是 属性 - 值 对 ,Ci 是 概念 类 。 这 个 条 件 概 
率 用 来 表示 类 内 的 相似 性 。 该 值 越 大 ,共享 该 属性 - 值 对 的 类 成 员 比 例 就 越 大 。 概 率 
P(Ci|1A; 二 Vs) 表示 类 间 相 异性 。 该 值 越 大 ,在 对 照 类 中 共享 该 属性 - 值 对 的 类 成 员 比 例 就 
越 大 。COBWEB 采用 了 一 种 启发 式 的 指标 , 那 就 是 分 类 效用 ,定义 如 下 : 


DPC) [UD (PA = V5 aD- (PA =v] 

n 
其 中 是 在 数据 点 的 某 个 层次 上 形成 的 一 个 划分 {C,C:，…',C,} 的 节点 ,概念 或 者 种 类 的 
数目 。 

将 对 象 暂时 置 于 每 个 节点 ,并 计算 这 种 对 应 划分 的 分 类 效用 。 产 生 最 高 分 类 效用 的 位 
置 是 对 象 节点 的 一 个 好 的 选择 。 同 时 计算 为 给 定 对 象 创建 一 个 新 的 节点 所 产生 的 分 类 效 
用 ,与 基于 现存 节点 的 计算 相 比较 。 根 据 产生 最 高 效用 的 划分 ,对 象 被 置 于 一 个 已 存在 的 
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类 ,或 者 为 它 创建 一 个 新 类 。 

COBWEB 的 主要 缺点 : 算法 假设 每 个 属性 上 的 概率 分 布 是 彼此 独立 的 。 用 概率 分 布 
表示 聚 类 使 得 更 新 和 存储 聚 类 代价 相当 高 。 时 间 和 空间 复杂 度 取决 于 属性 的 数目 、 每 个 属 
性 值 的 数目 。 对 偏 斜 的 数据 输入 不 是 高 度 平衡 的 ,可 能 导致 空间 和 时 间 复 杂 性 的 剧烈 变化 ; 
不 适合 大 数据 库 。 


animal 
P(Cy)=1.0 
P(scales|Cy)=0.25 


fish amphibian mammal/bird 

P(C,)=0.25 P(Cy)=0.25 P(C3)=0.5 

P(scales|C,)=1.0 P(moist|C,)=1.0 Phair|C;)-0.5 
mammal bird 
P(C,)=0.5 P(C;)=0.5 
P(hair|C,)=1.0 P(feathers|C;)=1.0 


图 6.20 分 类 树 示意 图 


6.8 离 群 点 检测 


在 数据 的 分 析 过 程 中 会 有 一 些 数据 明显 不 同 于 其 他 数据 , 称 这 样 的 数据 为 离 群 点 或 奇 
异 值 。 离 群 点 的 产生 原因 有 很 多 ,有 可 能 是 由 错误 产生 的 ,也 可 能 是 由 于 数据 本 身 的 特点 。 
在 数据 挖掘 过 程 中 , 离 群 点 有 可 能 蕴含 着 重要 的 信息 ,分 析 离 群 点 是 一 个 重要 的 挖掘 任务 。 
其 主要 应 用 包括 信用 卡 欺 诈 分 析 , 电 信和 欺诈 的 检测 以 及 医疗 检测 。 

离 群 点 检测 的 任务 就 是 在 所 有 数据 中 找到 最 异常 的 个 离 群 点 。 离 群 点 检测 的 基本 方 
法 主要 有 基于 统计 的 方法 ,基于 距离 的 方法 和 基于 偏 移 的 方法 。 

基于 统计 的 方法 主要 思想 是 首先 假设 数据 是 由 某 种 分 布 的 模型 产生 的 ,然后 根据 这 一 
概率 模型 通过 不 一 致 性 检验 来 确定 离 群 点 。 那 么 问题 主要 分 为 三 个 过 程 ,首先 是 判断 数据 
的 分 布 ,也 可 假设 数据 的 分 布 。 在 此 基础 上 通过 数据 求 得 分 布 的 参数 ,例如 均值 ,方差 等 。 
再 通过 不 一 致 检测 分 析 离 群 点 。 基 于 统计 的 检测 主要 缺点 是 检测 是 针对 数据 某 一 个 属性 
的 ,而 实际 的 问题 需要 在 高 维 空间 中 检测 离 群 点 。 而 且 这 类 方法 要 求知 道 对 象 的 分 布 模型 ， 
在 真实 情况 下 很 难 知道 数据 分 布 ,并 且 数 据 往往 不 符合 任何 一 种 理想 的 数学 分 布 。 

为 了 克服 基于 统计 方法 的 两 个 主要 缺点 :只 能 分 析 单 一 属性 并 且 需 要 了 解数 据 的 分 布 ， 
从 而 提出 了 基于 距离 的 离 群 点 分 析 方 法 。 基 于 距离 的 离 群 点 定义 如 下 :如 果 一 个 数据 集 T 
中 至 少 有 pX100% 的 对 象 和 对 象 O 的 距离 大 于 DD ,那么 O 是 一 个 基于 p 和 DD 的 离 群 点 ,用 
DB(p,D) 表 示 。 常 用 的 基于 距离 方法 的 离 群 点 分 析 算 法 常常 基于 索引 的 分 析 算 法 、 幅 套 - 
循环 的 分 析 算 法 以 及 基于 单元 格 的 分 析 算 法 。 
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基于 偏 移 的 离 群 点 检测 方法 是 通过 检查 一 组 对 象 的 主要 特征 来 识别 离 群 点 ,如 果 一 个 
数据 对 象 给 出 的 描述 偏 移 过 大 , 则 认为 这 个 数据 对 象 是 离 群 点 。 有 两 种 常见 的 检测 技术 ,分 
别 是 序列 异常 技术 以 及 OLAP 数据 立方 体 分 析 技 术 。 序 列 异常 技术 模拟 了 人 类 在 识别 异 
常事 物 的 方式 。OLAP 数据 立方 体 分 析 技 术 使 用 数据 立方 在 高 维 数据 中 识别 异常 区 域 。 


6.9 小 结 


聚 类 方法 是 一 类 重要 的 无 监督 学 习 分 类 方法 。 聚 类 方法 主要 包括 基于 划分 的 方法 、 基 
于 分 层 的 方法 .基于 密度 的 方法 .基于 网 格 的 方法 和 基于 模型 的 方法 。 在 基于 划分 的 聚 类 方 
法 中 ,本 章 重点 讨论 了 k- 均 值 聚 类 方法 与 k- 中 心 点 的 聚 类 方法 ,这 类 算法 在 执行 聚 类 分 析 
之 前 需要 提前 设 定 & 值 ,对 于 中 小 规模 球形 篮 分 布 的 数据 聚 类 效果 相对 较 好 。 在 层次 化 聚 
类 方法 中 ,本章 主 要 讨论 了 自 顶 向 下 的 分 裂 式 层次 聚 类 方法 与 自 底 向 上 的 凝聚 式 层 次 聚 类 
方法 ,针对 聚 类 过 程 中 分 裂 对 象 与 合并 对 象 的 选择 问题 ,讨论 了 不 同 的 层次 化 聚 类 方法 。 基 
于 网 格 的 方法 将 对 象 空间 划分 为 有 限 数目 的 网 格 单元 以 形成 网 格 结构 ,所 有 的 聚 类 都 是 在 
网 格 上 完成 的 。 基 于 模型 的 方法 就 是 假设 每 个 聚 类 数据 属于 某 种 模型 ,寻找 符合 模型 规律 
的 数据 对 象 ,从 而 完成 聚 类 。 
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第 7 章 数据 挖掘 应 用 


lk 


7.1 前 


皮肤 状况 测试 是 日 用 化 妆 品 研发 企业 进行 产品 研发 过 程 中 的 一 项 重要 工作 。 传 统 的 皮 
肤 状况 测试 一 般 情况 下 采用 医学 临床 实验 完成 。 此 类 实验 不 仅 需 要 统计 大 量 信息 ,过 程 烦 
琐 , 而 且 需 要 采用 专门 的 设备 ,实验 成 本 非常 高 。 化 妆 品 企业 产品 研发 需要 基于 已 有 的 实验 
数据 ,采用 信息 技术 的 方法 实现 对 于 皮肤 状况 的 预测 。 这 种 新 的 预测 方式 具有 如 下 三 个 主 
要 特点 : 

(1) 节省 时 间 。 只 需要 填写 调查 问卷 即 可 ,不 需要 复杂 的 人 工 测试 。 

(2) 节省 成 本 。 可 以 由 计算 机 立即 给 出 结果 ,不 需要 复杂 的 人 工分 析 。 

(3) 简单 易 行 。 可 以 远程 进行 , 受 试 者 可 以 自己 在 家 里 完成 。 这 种 新 的 方式 将 使 用 户 
更 简便 直接 地 了 解 自 己 的 皮肤 状况 ,并 将 使 对 用 户 皮肤 状况 的 调查 研究 工作 变 得 更 加 方便 。 

为 了 实现 对 皮肤 状况 预测 这 一 目标 ,需要 解决 三 个 方面 的 主要 难题 : 

(1) 对 现 有 实验 数据 与 调查 问卷 结果 进行 预 处 理 ,将 其 转化 为 可 以 由 计算 机 处 理 的 
数据 。 

(2) 基于 上 述 数字 化 数据 ,提取 与 皮肤 状况 相关 的 关键 特征 。 

G) 进一步 基于 上 述 关键 特征 ,构建 皮肤 状况 的 预测 模型 。 针 对 上 述 问题 ,当前 主要 采 
用 数据 挖掘 领域 的 数据 预 处 理 ,特征 提取 与 预测 方法 来 加 以 解决 。 

本 章 首 先 针对 肤色 白 度 、 色 斑 比 例 与 皮肤 水 润 程度 三 个 与 皮肤 相关 的 预测 目标 进行 讨 
论 。 对 于 这 三 项 指标 ,对 实验 样本 数据 及 其 关于 指标 的 分 布 情况 进行 初步 的 分 析 。 在 此 基 
础 上 讨论 三 种 数据 预 处理 的 方式 ,并 介绍 研究 所 采用 的 关键 特征 提取 方法 。 本 章 还 以 等 宽 
法 为 例 , 针 对 北京 数据 ,广州 数据 以 及 北京 和 广州 的 综合 数据 给 出 了 实验 结果 。 此 外 ,本 章 
针对 与 这 三 项 指标 相关 的 关键 特征 抽取 结果 进行 讨论 与 分 析 。 基 于 所 抽取 出 的 关键 特征 ， 
本 章 进一步 介绍 对 回归 预测 模型 的 研究 成 果 。 本 章 还 对 不 同类 型 的 回归 预测 模型 得 到 的 结 
果 进 行 比较 ,并 以 BP 神经 网 络 的 结果 为 例 进行 了 深入 分 析 。 最 后 ,根据 对 不 同 皮肤 状况 指 
标 建立 预测 模型 过 程 中 面临 的 具体 问题 ,讨论 了 相应 的 解决 方法 。 

本 章 共 分 为 6 个 小 节 。7. 1 节 对 本 章 应 用 性 研发 工作 的 背景 及 意义 进行 介绍 。7. 2 节 
介绍 本 应 用 实践 中 采用 预测 模型 的 总 体 思 路 ,并 对 调研 工作 的 结果 进行 总 结 。7. 3 节 介 绍 
本 项 应 用 工作 中 的 数据 预 处 理 的 实现 ,包括 对 实验 数据 以 及 数字 化 方法 的 介绍 等 。7. 4 节 
讨论 所 采用 的 特征 提取 方法 以 及 特征 提取 的 结果 ,并 对 不 同方 法 \ 不 同 地 区 数据 的 提取 结果 
进行 比较 与 分 析 。 基 于 7. 4 节 提 取 关 键 特征 的 结果 。7. 5 节 讨 论 所 建立 的 预测 模型 ,并 对 
不 同 的 模型 效果 进行 对 比分 析 。7. 6 节 对 整个 皮肤 指标 预测 工作 进行 总 结 ,并 对 未 来 工作 
做 出 展望 。 


7.2 应 用 研发 思路 


本 章 首先 对 原始 的 调查 问卷 数据 进行 数字 化 处 理 和 进一步 的 数据 预 处 理工 作 , 将 问卷 
数据 转化 成 可 以 直接 用 于 特征 选择 工作 和 建立 预测 模型 的 数据 形式 。 然 后 采用 特征 提取 的 
方法 选取 出 与 预测 指标 关联 性 强 的 特征 ,并 与 专家 核实 验证 后 将 这 些 特征 作为 预测 模型 的 输 
入 。 最 后 根据 预 处 理 得 到 的 数据 和 特征 提取 阶段 得 到 的 特征 构建 回归 模型 ,完成 预测 工作 。 
所 得 到 的 预测 模型 将 会 投入 使 用 ,并 在 此 过 程 中 进一步 完善 。 这 个 总 体 思路 如 图 7.1 所 示 。 


原始 | 数据 数字 化 | 数字 | 数据 预 处 理 | 预 处 | 特征 
输入 化 后 | 数据 再 后 | 特征 这 -| 关键 
数据 数据 tid | 特征 


建立 预测 模型 


投入 最 终 | -完善 模型 人 预测 
使 模型 模型 


图 7.1 本 章 采用 数据 挖掘 与 分 析 方法 的 总 体 思路 框图 


7.3” 预 处 理 方法 


7.3.1 基础 数据 说 明 


本 项 研究 的 原始 实验 数据 主要 基于 两 类 调查 问卷 的 调查 结果 。 这 两 类 调查 问卷 分 别 为 
《问卷 一 一 志愿 者 信息 调查 问卷 ) 和 《问卷 一 一 防晒 品 问卷 调查 》。 前 者 对 志愿 者 的 基本 信 
息 , 如 年 龄 .学历 及 工作 情况 进行 了 调查 。 后 者 主要 是 针对 志愿 者 使 用 防晒 品 的 习惯 以 及 对 
防晒 品 的 了 解 程度 进行 调查 。 对 于 被 调查 者 ,合作 方 采用 临床 医学 的 方法 对 其 皮肤 状况 (如 
肤色 、 色 斑 比 例 、 皮 肤 水 润 程度 等 ) 进 行 了 测试 。 

上 述 两 类 调查 问卷 一 共有 49 道 题 , 包 含 单 选 题 .多 选 题 .判断 题 及 填空 题 多 种 题 型 。 调 
查 对 象 主要 为 居住 在 北京 市 与 广州 市 的 中 国 女性 , 受 试 者 年 龄 平均 分 布 在 10 一 70 岁 之 间 。 
数据 共 包含 约 900 个 实例 ,其 中 有 605 组 数据 用 于 现 阶段 建 模 , 剩 余数 据 将 分 三 次 用 于 对 模 
型 的 测试 与 完善 。 在 这 一 阶段 ,所 使 用 的 605 组 数据 中 ,有 299 组 为 北京 数据 ,另外 306 组 
为 广州 数据 。 本 章 需 要 基于 这 605 组 数据 选 出 与 皮肤 状况 相关 的 关键 特征 并 构建 预测 
模型 。 


7.3.2 数字 化 方法 说 明 


在 实验 前 期 ,经 过 反复 推荐 ,并 与 专业 领域 专家 讨论 ,确定 了 调查 问卷 的 数字 化 方法 。 
本 章 主要 采用 4 种 方法 处 理 调查 问卷 的 结果 数据 。 分 别 描述 如 下 : 


1. 问题 合并 


对 于 信息 宛 余 的 问题 ,本 章 会 将 其 进行 合并 。 例 如 表 7. 1 中 两 个 问题 ,分 别 询问 受 试 者 
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的 年 龄 与 出 生日 期 。 可 以 将 它们 进行 合并 ,只 考虑 受 试 者 的 年 龄 ,并 在 提取 关键 特征 时 以 
10 年 为 一 档 对 年 龄 进行 划分 。 
表 7.1 问题 合并 型 数字 化 方法 示例 


1. ER: 岁 合并 两 个 问题 
2. 出 生日 期 : 1. ER: 岁 
年 月 H 以 10 年 为 一 档 对 年 龄 划分 。 
原因 : 问题 重复 。 
2. 问题 拆 分 


对 于 一 些 可 多 选 且 选项 之 间 没 有 直接 联系 的 题目 ,本 章 会 将 其 拆 分 为 多 道 判 断 题 ,每 道 
判断 题 代 表 是 否 有 选择 一 个 原来 的 对 应 选项 。 如 表 7. 2 所 示 的 一 道 题 询问 受 试 者 是 否 存在 
一 些 疾病 。 本 文 将 其 拆 分 为 多 个 问题 ,每 题 对 应 于 一 种 疾病 的 询问 。 

表 7.2 问题 拆 分 型 数字 化 方法 示例 
13. 您 的 皮肤 是 否 存 在 下 述 任 何 状况 ? 将 该 题 拆 分 为 多 道 判 断 题 ; 


(可 多 选 ) 13.1 您 的 皮肤 是 否 有 和 牛皮癣 ? 
Ap pe Sa 13.2 AY EWR IE AAT BRS 2 
湿疹 本 
cares 回答 为 是 / 否 。 
i 删除 “其 他 ”选项 。 
遗传 过 敏 性 皮炎 
i 原因 : 多 选 题 ,选项 之 间 无 关联 。 
3. 问题 转化 


对 于 一 些 组 织 结构 不 适合 直接 数字 化 的 题目 ,会 对 其 做 转化 工作 ,将 其 转化 为 便于 计算 
机 处 理 的 数据 形式 。 如 表 7. 3 所 示 的 问题 对 受 试 者 的 吸烟 情况 进行 调查 ,尝试 了 两 种 转化 
方法 对 其 进行 数字 化 ,并 对 结果 进行 了 比较 。 
表 7.3 问题 转化 型 数字 化 方法 示例 


19. 您 现在 或 以 前 曾经 吸烟 吗 ? 法 1: 只 考虑 一 级 选项 , 即 不 吸烟 、 吸 
口 不 ,从 不 吸烟 。 烟 、 曾 经 吸烟 。 
是 的 ,目前 的 吸烟 情况 : 支 / 天 法 2: 转化 为 两 个 题目 如 下 。 
开始 吸烟 年 龄 : 岁 19.1 总 吸烟 量 ,数值 型 。 
喜欢 香烟 的 类 型 : 计算 公式 : 日 吸烟 量 X 烟 龄 Xx 焦油 含 
强烈 型 (焦油 含量 之 8mg ) 量 。 其 中 焦油 含量 按 8、5. 5、3 对 应 强烈 、 
中 等 型 (焦油 含量 3 一 8mg) 中 等 ,温和 三 个 档次 。 
温和 型 (焦油 含量 二 3mg ) 19.2 戒烟 至 今 的 时 间 。 
是 的 , 曾 吸烟 但 现在 戒 掉 了 : 。”_ 支 /天 如 果 不 吸 烟 或 正在 吸烟 则 为 0 。 
开始 吸烟 年 龄 : 岁 原因 : 总 吸烟 量 用 来 表示 被 调查 者 的 
停止 吸烟 年 龄 : 岁 焦油 积累 含量 ;戒烟 至 今 时 间 用 来 区 分 现 
喜欢 香烟 的 类 型 : 在 吸烟 和 曾经 吸烟 。 
强烈 型 (焦油 含量 二 8mg ) 
中 等 型 (焦油 含量 3~8mg) 
温和 型 (焦油 含量 二 3mg ) 
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4. 问题 舍弃 


对 于 一 些 回答 选项 单一 ,或 与 本 预测 任务 不 相干 的 题目 ,本 文 直接 在 数字 化 阶段 将 其 合 
弃 。 下 面 给 了 两 个 例子 ,如 表 7.4 所 示 。 


表 7.4 问题 舍弃 型 数字 化 方法 示例 


17. 您 现在 正在 用 激素 替代 疗法 治疗 更 年 期 症状 吗 ? 删除 此 题 
不 是 原因 : 没有 使 用 过 激素 替代 疗法 的 实例 。 


是 


开始 用 激素 替代 疗法 的 年 龄 : 


20. 你 是 如 何 知 道 怎样 做 过 敏 性 测试 的 ? 删除 此 题 

A. 柜台 小 姐 介绍 的 原因 : 与 预测 项 目 不 相 关 。 
B. 产品 说 明 书 上 注 明 的 

C. 朋友 介绍 的 

D. 电视 ,杂志 等 其 他 媒体 渠道 了 解 到 的 
E. 其 他 


采用 上 述 4 种 数据 处 理 方式 ,本 章 得 到 了 对 整个 调查 问卷 的 数字 化 结果 。 该 数字 化 结 
果 包 含 51 个 属性 ,除去 编号 外 ,共有 50 个 特征 属性 。 对 于 该 结果 ,本 文 将 进一步 做 数据 预 
处 理工 作 , 以 用 于 完成 关键 特征 提取 的 任务 。 在 后 续 的 讨论 中 ,将 采用 属性 的 名 称 来 指 代 相 
关 属 性 ,具体 的 属性 名 称 与 其 含义 对 照 表 在 附录 B 中 有 详细 的 说 明 。 


7.3.3 深入 一 步 的 预 处 理 方 法 


本 章 采用 的 数据 预 处 理 方法 包括 处 理 缺 失 数 据 、 去 除 无 效 特征 、 数 据 离散 化 以 及 数据 规 
范 化 。 本 文采 用 均值 填补 缺失 数据 ,并 删除 了 蕴含 信息 量 少 的 特征 。 数 据 离散 化 和 数据 规 
范 化 分 别 被 用 于 关键 特征 提取 任务 和 预测 任务 。 在 关键 特征 提取 任务 中 ,本 文 主要 采用 了 
三 种 数据 离散 化 方式 处 理 连 续 型 数据 。 在 预测 任务 中 ,本 文采 用 最 小 -最 大 规范 化 方法 处 理 
连续 型 数据 。 这 些 方法 具体 的 应 用 情况 在 接 下 来 的 小 节 中 有 详细 的 论述 。 


1. 处 理 缺失 数据 


在 合并 了 北京 与 广州 的 数据 后 ,发 现 有 数据 缺失 的 属性 达 19 个 。 缺 失 最 严重 的 情况 是 
属性 缺失 10 个 实例 数据 (缺失 率 约 为 2%)。 对 于 数据 缺失 的 情况 ,本 章 采 用 均值 填充 法 进 
行 了 处 理 。 例 如 属性 Weight 表示 受 试 者 体重 ,共有 三 个 实例 缺失 该 属性 的 数据 。 本 章 采 
用 被 调查 者 的 体重 均值 56. 98kg 填补 了 该 属性 缺失 的 数据 。 


2. 去 除 无 效 特征 


本 章 将 无 效 特征 定义 如 下 : 如 果 对 于 一 个 特征 , 取 值 为 同一 值 的 实例 数 占 总 实例 数 超 

过 97%, 则 这 一 特征 被 认为 是 无 效 特征 。 由 于 无 效 特 征 蕴 含 信息 量 太 少 , 而 且 比 较 容易 受 

到 干扰 ,在 预 处 理 阶 段 会 将 其 删除 。 例 如 特征 Seborrhea 表示 受 试 者 是 否 患 过 脂 溢 性 皮炎 ， 
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共有 8 个 受 试 者 表示 曾经 患 过 ,剩余 597 个 受 试 者 都 没有 患 过 。 由 于 超过 97% 的 受 试 者 都 
选择 了 相同 的 选项 ,这 个 特征 会 被 删除 。 在 删除 无 效 特征 后 ,余下 的 数据 集 共 有 特征 (特征 
属性 )40 个 。 


3. 数据 离散 化 


在 完成 特征 提取 任务 时 ,为 了 计算 不 同属 性 对 预测 指标 的 区 分 能 力 ,本章 需 要 对 连续 型 
属性 进行 离散 化 ,将 其 划分 为 不 同 的 区 间 。 对 于 年 龄 属性 ,本 文采 用 等 宽 法 将 其 进行 6 等 
分 ,使 得 划分 间隔 为 10 年 。 本 章 发 现 每 个 等 分 中 的 数据 大 致 相当 , 即 被 调查 对 象 的 年 龄 分 
布 比较 平均 。 对 于 预测 属性 ,本 文 尝试 了 5 等 分 .10 等 分 两 种 划分 方式 。 

对 于 其 他 连续 型 特征 属性 ,本 文 尝试 了 等 宽 法 、 等 频 法 与 人 工法 三 种 方法 进行 离散 化 。 
在 等 宽 法 中 ,本 文 将 属性 划分 到 5 个 区 间 ,并 使 每 个 区 间 的 跨度 大 小 相等 。 这 样 做 有 一 定 的 
不 合理 之 处 : 有 的 属性 取 值 范围 跨越 比较 大 ,但 是 数据 分 布 却 比较 集中 。 对 于 这 样 的 属性 ， 
如 果 采 用 等 宽 法 进行 划分 ,会 导致 某 几 个 间隔 内 数据 特别 多 ,而 有 的 间隔 中 数据 特别 少 。 例 
如 属性 Weight 表示 受 试 者 体重 ,在 采用 等 宽 法 进行 划分 后 ,其 分 布 如 图 7.2 所 示 。 


Weight 389 
aa M 
次 重 
ov 国 图 
xa E 2 112 
9 
az EB 3 CA 


图 7.2 等 宽 法 划分 Weight 属性 分 析 结 果 


针对 上 述 情况 ,又 尝试 采用 等 频 法 对 连续 型 属性 进行 划分 。 用 等 频 法 处 理 连 续 型 数据 
需要 寻找 合适 的 划分 点 ,将 数据 分 布 在 不 同 的 间隔 内 并 使 每 个 间隔 中 的 数据 大 致 相当 。 仍 
然 将 属性 划分 到 5 个 区 间 ,可 以 看 出 采用 等 频 法 划分 对 于 一 些 属性 的 处 理 结果 比 等 宽 法 更 
好 ,如 Weight 属性 的 处 理 结果 如 图 7. 3 所 示 。 

等 频 法 在 大 多 数 情 况 下 解决 了 等 宽 法 不 同 间隔 内 数据 个 数 悬 殊 较 大 的 问题 ,但 对 于 单 
个 值 占 数据 比例 较 大 的 情况 ,依然 不 能 很 好 地 解决 。 另 外 ,等 宽 法 和 等 频 法 的 划分 点 往往 不 
具有 具体 的 物理 意义 。 因 此 研发 过 程 中 进一步 提出 了 人 工 处 理 法 ,根据 实际 物理 意义 以 及 
数据 分 布 情况 进行 划分 ,这 样 做 也 简化 了 对 一 些 问题 的 处 理 方法 。 人 工法 综合 了 等 宽 法 与 
等 频 法 的 优点 ,给 出 了 合理 的 划分 点 。 它 不 仅 提出 了 连续 值 的 离散 化 方法 ,而 且 对 原始 数据 
的 数字 化 方法 也 有 所 改动 。 
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图 7.3 等 频 法 划分 Weight 属性 分 析 结 果 


4. 数据 规范 化 


在 实现 预测 任务 时 ,使 用 连续 值 作 为 回归 模型 的 输入 ,因此 可 以 不 做 离散 化 工作 。 但 本 
文 对 输入 的 连续 值 做 了 简单 的 规范 化 操作 ,使 其 规范 化 到 范围 L0, 1] 中 。 将 0 和 1 带 入 最 
小 -最 大 规范 化 转换 公式 ,得 到 转换 公式 如 下 : 

j= N (1-1) 
其 中 mina 和 maxa 分 别 代 表 属 性 A HiME ERI v 和 "分别 代表 原 数据 值 和 映射 后 的 
新 数据 值 。 


7.3.4 基本 数据 分 布 情况 说 明 


经 过 上 述 数 据 预 处 理 后 得 到 的 数据 将 直接 用 于 特征 提取 工作 。 在 此 ,本 章 先 对 该 数据 
预测 属性 值 的 分 布 情况 ,以 及 预测 属性 对 于 不 同 特征 属性 的 分 布 情况 做 一 个 说 明 。 


1. 皮肤 白 度 实验 数据 


合并 北京 、 广 州 两 地 数据 得 到 的 605 组 数据 中 ,皮肤 白 度 最 大 值 为 69. 21, 最 小 值 为 
49. 80 ,均值 为 60. 67 ,标准 偏差 为 3.26。 其 分 布 如 图 7.4 所 示 。 

从 图 7.4 中 可 以 看 出 ,皮肤 白 度 值 接近 正 态 分 布 。 从 皮肤 白 度 的 实际 意义 上 来 讲 , 这 个 
分 布 比较 合理 。 为 了 能 够 计算 不 同属 性 对 于 皮肤 白 度 的 影响 能 力 , 需 要 对 皮肤 白 度 做 以 下 
划分 ,采用 了 等 频 法 划分 皮肤 白 度 属性 ,并 分 别 对 皮肤 白 度 做 5 划分 、10 划分 来 对 关键 特征 
进行 评价 。 

2. 色 斑 比例 实验 数据 


由 北京 ,广州 两 地 数据 得 到 的 605 组 皮肤 色 斑 比例 情况 的 分 布 如 图 7. 5 所 示 ( 图 中 数字 
表示 组 数 ) 。 
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图 7.4 北京 广州 两 地 人 群 皮肤 白 度 情况 的 分 布 图 
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图 7.5 北京 广州 两 地 人 群 皮肤 色 斑 比例 情况 的 分 布 图 


从 色 斑 比例 的 实际 意义 上 来 讲 , 这 个 分 布 比 较 合 理 。 但 是 数据 都 分 布 在 较 小 的 范围 内 
可 能 会 对 预测 工作 有 所 影响 。 仍 采用 等 频 划分 法 ,分 别 对 色 斑 比 例 属性 做 5 划分 、10 划分 
来 对 不 同 特征 进行 评价 。 


3. 皮肤 水 润 实验 数据 


由 北京 .广州 两 地 数据 得 到 的 605 组 皮肤 水 润 程度 的 分 布 如 图 7. 6 所 示 。 
从 图 7.6 中 可 以 看 出 ,皮肤 水 润 程度 接近 正 态 分 布 ,数据 比较 合理 。 采 用 了 等 宽 划分 
法 ,分 别 对 皮肤 水 润 属性 做 5 划分 、10 划分 来 对 不 同 特征 进行 评价 。 


7.3.5 初步 分 析 结 果 


对 于 上 面 的 结果 分 布 图 ,可 以 进行 初步 直观 的 分 析 ,评价 不 同 特征 对 于 预测 属性 的 区 分 
能 力 。 本 章 发 现 特征 属性 对 于 皮肤 白 度 和 色 斑 比例 的 区 分 能 力 比较 好 一 些 ,对 皮肤 水 润 程 
度 的 区 分 能 力 比较 弱 。 


1. 皮肤 白 度 实验 数据 初步 分 析 


受 试 者 的 测试 数据 与 其 皮肤 白 度 的 关系 比较 明显 。 例 如 图 7. 7 表示 受 试 者 年 龄 与 其 皮 
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图 7.6 北京 .广州 两 地 人 群 皮肤 水 润 程度 的 分 布 图 


肤 白 度 情况 的 关系 。 图 7.7 中 的 6 个 块 分 别 表 示 10 一 20 岁 .20 一 30 岁 .30 一 40 岁 、40 一 50 
岁 .50 一 60 岁 .60 一 70 岁 的 人 群 。 白 度 最 低 表 示 皮 肤 白 度 指标 值 最 低 , 白 度 最 高 表示 皮肤 白 
度 指 标 值 最 高 。 
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图 7.7 受 试 者 年 龄 与 其 皮肤 白 度 的 关系 图 


可 以 看 出 ,年 轻 的 受 试 者 皮肤 白 度 明显 高 于 年 老 的 受 试 者 。 对 于 10 一 20 岁 的 受 试 者 ， 
白 度 最 低 人 数 所 占 比例 更 低 , 白 度 最 高 人 数 所 占 比 例 更 高 ,这 表示 她 们 皮肤 白 度 比较 高 。 而 
对 于 60 一 70 岁 的 受 试 者 , 白 度 最 高 人 数 所 占 比 例 更 低 , 白 度 最 低 人 数 所 占 比 例 更 高 ,这 表示 
她 们 皮肤 白 度 比较 低 。 


2. 色 斑 比例 实验 数据 初步 分 析 


受 试 者 的 测试 数据 与 其 皮肤 色 斑 程度 的 关系 也 比较 明显 。 例 如 图 7. 8 表示 受 试 者 年 龄 
与 其 色 斑 比例 情况 的 关系 。 图 7. 8 中 的 6 个 块 与 图 7. 7 中 说 明 相 同 。 色 斑 最 低 表 示 皮 肤 的 
色 斑 比例 最 低 , 色 斑 最 高 表示 皮肤 的 色 斑 比 例 最 高 。 
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图 7.8 受 试 者 年 龄 与 其 皮肤 色 斑 比 例 的 关系 图 


可 以 看 出 ,年 轻 的 受 试 者 色 斑 情况 明显 好 于 年 老 的 受 试 者 。 对 于 10 一 20 岁 的 受 试 者 ， 
色 斑 最 低 人 数 所 占 比例 更 高 , 色 斑 最 高 人 数 所 占 比例 更 低 , 这 表示 她 们 色 斑 所 占 比 例 比较 
低 。 而 对 于 60 一 70 岁 的 受 试 者 , 色 斑 最 高 人 数 所 占 比例 更 高 , 色 斑 最 低 人 数 所 占 比例 更 低 ， 
这 表示 她 们 色 斑 所 占 比 例 比 较 高 。 


3. 皮肤 水 润 实 验 数 据 初 步 分 析 


不 同 的 属性 值 对 其 皮肤 水 润 程度 的 高 低 有 一 定 影响 ,但 是 区 分 能 力 并 不 明显 。 例 如 
图 7.9 表示 “今天 是 否 在 脸 上 涂抹 了 润 肤 箱 ”与 受 试 者 脸 部 水 润 程度 的 关系 。 其 中 有 342 个 
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图 7.9 受 试 者 “今天 是 否 在 脸 上 涂抹 了 润 肤 箱 ” 与 其 脸 部 水 润 程度 的 关系 图 
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受 试 者 表示 今天 没有 在 脸 部 涂抹 润 肤 霜 , 另 外 263 个 受 试 者 表示 今天 在 脸 部 涂抹 了 润 肤 霜 。 
水 润 最 低 表示 皮肤 水 润 指标 最 低 ,水 润 最 高 表示 皮肤 水 润 指标 最 高 。 

可 以 看 出 ,涂抹 了 润 肤 霜 的 受 试 者 脸 部 水 润 程度 的 整体 水 平 高 于 没有 涂抹 润 肤 霜 的 受 
试 者 。 其 水 润 最 高 人 数 所 占 比 例 更 高 ,而 水 润 最 低 人 数 、 水 润 次 低 人 数 所 占 比 例 更 低 。 但 
是 ,从 另 一 方面 ,无 论 是 涂抹 了 润 肤 霜 的 受 试 者 还 是 没有 涂抹 润 肤 霜 的 受 试 者 ,她 们 脸 部 的 
水 润 程度 都 跨越 了 整个 水 润 程度 的 范围 ,而 且 都 接近 水 润 程度 等 宽 分 类 的 先 验 概率 分 布 。 

从 上 述 分 析 可 以 看 出 ,对 于 皮肤 水 润 程度 提取 关键 特征 可 行 ,但 是 提取 出 的 关键 特征 尚 
7.3.6 小 结 

本 节 对 问卷 数据 、 预 处 理 方法 及 结果 进行 了 介绍 。 所 采用 的 原始 实验 数据 为 两 类 调查 
问卷 ,分 别 对 受 试 者 使 用 化 妆 品 情况 与 个 人 信息 进行 调查 。 基 于 对 这 两 份 调查 问卷 数据 的 
研究 ,本 文 提出 了 一 套数 字 化 方法 ,并 提出 了 进一步 的 数据 预 处 理 方法 。 在 对 数据 进行 预 处 
理 后 ,本 章 对 数据 的 分 布 情况 做 了 宏观 介绍 ,并 分 析 了 完成 关键 特征 提取 任务 的 可 行 性 。 在 
7.4 节 会 对 采用 的 特征 提取 方法 与 提取 结果 进行 介绍 。 


7.4 特征 提取 方法 


为 了 提取 出 与 皮肤 状况 相关 的 关键 特征 ,以 便于 专家 分 析 , 并 用 于 进一步 预测 模型 的 建 
立 ,对 于 等 宽 .等 频 及 人 工法 这 三 种 预 处 理 方法 得 到 的 数据 ,采用 了 8 种 特征 提取 方法 筛选 
关键 特征 ,并 综合 其 中 6 种 方法 得 到 特征 的 总 排序 结果 。 然 后 通过 对 比 三 个 排序 结果 , 选 出 
重要 的 特征 作为 与 皮肤 状况 相关 的 关键 特征 。 在 分 析 阶 段 ,对 预测 目标 进行 了 5 划分 和 10 
划分 两 种 尝试 。 在 最 后 选取 关键 特征 时 ,采用 的 是 10 划分 的 结果 。 分 别针 对 皮肤 白 度 、 色 
斑 比 例 和 皮肤 水 润 程度 这 三 个 皮肤 状况 指标 进行 特征 提取 工作 ,得 到 不 同 的 关键 特征 。 
7.4.1 8 种 特征 提取 方法 

本 章 一 共 采 用 了 8 种 特征 提取 方法 ,下 面 对 其 进行 简单 的 说 明 。 

1. 基于 相关 性 的 特征 子 集 评价 法 (CfsSubsetEval) 


该 方法 综合 考虑 单个 特征 的 预测 能 力 与 特征 之 间 的 元 余 性 两 个 方面 给 出 关键 特征 子 
集 。 所 选 出 的 特征 与 预测 属性 相关 度 较 高 且 彼 此 间 的 相关 性 较 低 。 


2. 基于 一 致 性 的 特征 子 集 评价 法 (ConsistencySubsetEval) 
该 方法 通过 评估 一 致 性 来 选取 特征 子 集 ,常用 于 随机 搜索 算法 ,以 选取 与 原 特 征集 一 致 
性 相同 的 最 小 特征 子 集 。 
3. 基于 卡 方 值 的 特征 评价 法 (ChiSquaredAttributeEval) 
该 方法 通过 计算 特征 关于 类 别 的 卡 方 值 来 评估 特征 的 重要 程度 ,可 以 根据 卡 方 值 对 特 
征 的 重要 程度 进行 排序 。 
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4. 基于 信息 增益 比例 的 特征 评价 法 (GainRatioAttributeEval) 


该 方法 通过 计算 特征 的 信息 焙 增 益 比 例 来 评估 特征 的 重要 程度 ,可 以 根据 信息 箭 增益 
比例 值 对 特征 的 重要 程度 进行 排序 。 


5. 基于 信息 增益 的 特征 评价 法 (InfoGainAttributeEval) 


该 方法 通过 计算 特征 的 信息 业 增益 来 评估 特征 的 重要 程度 ,可 以 根据 信息 入 增益 值 对 
特征 的 重要 程度 进行 排序 。 


6. 基于 OneR 分 类 器 的 特征 评价 法 (OneRAttributeEval) 


该 方法 通过 OneR 分 类 器 分 类 结果 评估 特征 的 重要 程度 ,可 以 根据 分 类 结果 对 特征 的 
重要 程度 进行 排序 。 


7. 基于 ReliefF 方法 的 特征 评价 法 (ReliefFAttributeEval) 


该 方法 使 用 ReliefF 算法 评估 特征 的 重要 程度 ,可 以 根据 ReliefF 算法 运行 结果 对 特征 
的 重要 程度 进行 排序 。 


8. 基于 对 称 原理 不 确定 性 的 特征 评价 法 (SymmetricalUncertAttributeEval) 


该 方法 采用 对 称 原理 的 不 确定 性 来 评估 特征 的 重要 程度 ,可 以 根据 不 确定 性 的 大 小 对 
特征 的 重要 程度 进行 排序 。 

这 8 种 方法 的 前 两 种 方法 可 以 直接 选 出 特征 子 集 ,后 6 种 方法 可 以 计算 特征 的 重要 程 
度 , 并 对 其 进行 排序 。 本 项 目 研究 中 综合 了 后 6 种 方法 ,对 所 有 特征 给 出 了 一 个 总 的 排序 ， 
并 使 用 前 两 种 方法 的 结果 作为 参考 。 


7.4.2 特征 总 体 排名 策略 


针对 每 一 种 关键 特征 提取 方法 ,按照 采用 该 方法 得 到 的 特征 重要 程度 排序 结果 ,对 每 个 
特征 赋予 归 一 化 的 权 值 。 排 在 第 一 的 特征 赋值 为 1, 排 在 末 位 的 特征 赋值 为 0, 未 被 列 入 排 
序 表 中 的 特征 也 赋值 为 0。 对 于 排 在 中 间 的 特征 ,按照 等 分 法 均匀 赋值 。 这 样 便 得 到 了 所 
有 特征 在 不 同 抽取 方法 下 的 权 值 。 然 后 对 于 每 个 特征 ,将 按照 不 同 关键 特征 提取 方法 所 赋 
予 的 权 值 相 加 , 即 得 到 该 特征 的 总 权 值 。 采 用 这 个 总 权 值 对 特征 进行 排序 , 权 值 越 大 , 则 特 
征 的 重要 性 越 大 。 

例如 , 表 7.5 中 给 出 三 种 评价 方法 对 A、B、C、D 这 4 个 特征 重要 程度 的 排序 结果 。 在 
评价 方法 1 中 ,A、B、C.D 的 重要 程度 依次 下 降 。 根 据 这 个 排序 结果 ,在 归 一 化 时 ,它们 分 别 
被 赋予 权 值 1.2/3、1/3.0。 对 于 评价 方法 2 .评价 方法 3 得 到 的 结果 也 如 此 根据 排序 赋值 。 
最 后 将 特征 在 不 同方 法 下 获得 的 权 值 求 和 , 即 得 到 该 特征 的 总 权 值 。 根 据 这 个 总 权 值得 到 
的 排名 即 为 总 排名 。 如 A、B、C、D 这 4 个 特征 的 总 权 值 分 别 为 7/3、2、5/3、0, 因 此 重要 程度 
的 总 排名 即 为 A>B>C>D. 
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表 7.5 特征 总 体 排名 策略 说 明 表 


评价 方法 1 评价 方法 2 评价 方法 3 
特征 A 1 特征 B 1 特征 C 1 
特征 B 2/3 特征 A 2/3 特征 A 2/3 
特征 C 1/3 特征 C 1/3 特征 B 1/3 
特征 DD 0 特征 D 0 特征 DD 0 


7.4.3 最 终 关 键 特征 
采用 等 宽 法 .等 频 法 和 人 工法 处 理 特 征 属性 ,对 每 个 预测 指标 都 得 到 了 三 种 特征 排名 。 


主要 采用 人 工 观察 的 方式 从 这 三 个 特征 排名 中 得 到 最 终 的 关键 特征 。 在 人 工 观察 时 ,会 考 


虑 同时 出 现在 三 种 特征 排名 前 几 位 的 特征 。 此 外 ,会 根据 分 布 图 选 出 一 些 没有 被 三 种 排名 
同时 排 在 前 列 的 特征 。 最 终 选 取 的 特征 会 交 给 皮肤 研究 专家 核实 ,并 可 能 用 于 其 他 研究 。 


1. 皮肤 白 度 的 特征 提取 结果 


表 7.6 和 表 7.7 分 别 给 出 不 同 数据 特征 的 提取 情况 。 


表 7.6 等 宽 法 处 理 总 数据 ,对 皮肤 白 度 进行 10 划分 得 到 的 总 排序 结果 


排序 属性 名 称 排序 属性 名 称 
1 MenstruationStoped 11 Income 
2 Age 12 Smoking2Degree 
3 Pregnant 13 Weight 
4 MenstruationStatus 14 Activity 
5 MenstruationRegular 15 Occupation1 
6 Education 16 When 
7 Habit 17 Showers 
8 Correctness 18 DoTestOrNot 
9 Season 19 AllergicChoice 
10 PartsOfBody 20 SunProtection 
表 7.7 等 频 法 处 理 总 数据 ,对 皮肤 白 度 进行 10 划分 得 到 的 总 排序 结果 
排序 属性 名 称 排序 属性 名 称 
1 Age 5 MenstruationRegular 
2 Pregnant 6 Education 
3 MenstruationStoped 7 Correctness 
4 MenstruationStatus 8 Smoking2Degree 
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排序 属性 名 称 排序 属性 名 称 
9 Weight 15 SPFbeingUsed 
10 Occupation1 16 Income 
11 Season 17 When 
12 PartsOfBody 18 DoTestOrNot 
13 Habit 19 AllergicChoice 
14 Activity 20 SunProtection 


可 以 看 出 ,这 个 结果 与 等 宽 法 得 到 的 结果 有 所 不 同 , 但 大 体 上 还 是 相近 的 。 上 述 仅仅 给 
出 了 基于 10 划分 数据 预 处 理 方法 的 关键 特征 提取 的 总 排序 结果 。 
采取 与 等 宽 法 相同 的 关键 特征 提取 方法 ,得 到 最 终 关键 特征 的 总 排序 结果 如 表 7. 8 


所 示 。 
表 7.8 人 工法 处 理 总 数据 ,对 皮肤 白 度 进行 10 划分 得 到 的 总 排序 结果 
排序 属性 名 称 排序 属性 名 称 
1 Age 11 Activity 
2 Pregnant 12 Occupationl 
3 MenstruationStoped 13 DoTestOrNot 
4 MenstruationRegular 14 SunProtection 
5 MenstruationStatus 15 AllergicChoice 
6 Education 16 FaceCleansingProduct 
7 Weight 17 Melasma 
8 Habit 18 When 
9 PartsOfBody 19 SPFbeingUsed 
10 Season 20 HowWashFace 


这 个 结果 与 等 宽 法 等 频 法 得 到 的 结果 也 比较 相近 。 上 述 仅仅 给 出 了 基于 10 划分 数据 


预 处 理 方法 的 关键 特征 提取 的 总 排序 结果 。 


2. 色 斑 比例 的 特征 提取 结果 


对 于 色 斑 比例 指标 ,采用 了 等 宽 法 .等 频 法 和 人 工法 这 三 种 方法 处 理 特征 属性 。 在 等 宽 
法 中 ,分 别 研究 了 北京 地 区 数据 ,广州 地 区 数据 以 及 总 数据 的 情况 ,得 到 了 相关 的 特征 提取 
结果 。 在 等 频 法 和 人 工法 中 , 仅 采 用 总 数据 进行 分 析 。 同 时 对 色 斑 比例 指标 采用 等 频 法 做 
5 划分 、10 划分, 分别 研究 了 特征 提取 结果 。 表 7. 9 和 表 7. 10 分 别 给 出 不 同 数据 的 特征 提 


取 情 况 。 
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表 7.9 等 宽 法 处 理 总 数据 ,对 色 斑 比例 进行 10 划分 得 到 的 总 排序 结果 


排序 属性 名 称 排序 属性 名 称 
1 Age ll Season 
2 MenstruationStoped 12 Habit 
3 Pregnant 13 AllergicChoice 
4 Weight 14 PartsOfBody 
5 Education 15 Smoking2Degree 
6 MenstruationStatus 16 Occupation1 
7 Activity 17 Correctness 
8 MenstruationRegular 18 SPFbeingUsed 
9 MenstruationStarted 19 Showers 
10 Melasma 20 Sleep 
表 7.10 等 频 法 处 理 总 数据 ,对 色 斑 比例 进行 10 划分 得 到 的 总 排序 结果 
排序 属性 名 称 排序 属性 名 称 
1 Age 11 Season 
2 Pregnant 12 DrinkingDegree 
3 MenstruationStoped 13 Habit 
4 Activity 14 Occupation1 
5 Education 15 AllergicChoice 
6 Weight 16 SPFbeingUsed 
7 MenstruationStatus 17 Showers 
8 MenstruationRegular 18 PartsOfBody 
9 MenstruationStarted 19 Sleep 
10 Melasma 20 Smoking2Degree 


从 表 7. 10 可 以 看 出 ,这 个 结果 与 等 宽 法 得 到 的 结果 有 所 不 同 ,但 大 体 上 还 是 相近 的 。 
上 述 仅仅 给 出 了 基于 10 划分 数据 预 处 理 方 法 的 关键 特征 提取 的 总 排序 结果 如 表 7. 11 


所 示 。 
表 7.11 人 工法 处 理 总 数据 ,对 色 斑 比例 进行 10 划分 得 到 的 总 排序 结果 
排序 属性 名 称 排序 属性 名 称 
1 Age 5 Education 
2 Pregnant 6 MenstruationStatus 
3 MenstruationStoped va Weight 
4 Activity 8 MenstruationRegular 


续 表 


排序 属性 名 称 排序 属性 名 称 
9 MenstruationStarted 15 Showers 
10 Melasma 16 Income 
11 Habit 17 Sleep 
12 AllergicChoice 18 SPFbeingUsed 
13 Season 19 Smoke 
14 PartsOfBody 20 Smoke2 


这 个 结果 与 等 宽 法 、 等 频 法 得 到 的 结果 也 比较 相近 。 上 述 仅仅 给 出 了 基于 10 划分 数据 
预 处 理 方法 的 关键 特征 提取 的 总 排序 结果 。 


3. 水 润 度 的 特征 提取 结果 


对 于 皮肤 水 润 指标 ,采用 了 等 宽 法 、 等 频 法 和 人 工法 这 三 种 方法 处 理 特征 属性 。 在 等 宽 

法 中 ,分 别 研究 了 北京 地 区 数据 、 广 州 地 区 数据 以 及 总 数据 的 情况 ,得 到 了 相关 的 特征 提取 

结果 。 在 等 频 法 和 人 工法 中 , 仅 采用 总 数据 进行 分 析 。 同 时 对 皮肤 水 润 指标 采用 等 宽 法 做 

5 划分 10 划分 ,分 别 研究 了 特征 提取 结果 。 表 7. 12 和 表 7. 13 分 别 给 出 不 同 数据 的 特征 提 
表 7.12 等 宽 法 处 理 总 数据 ,对 皮肤 水 润 进行 10 划分 得 到 的 总 排序 结果 


排序 届 性 名 称 排序 属性 名 称 
1 SPFbeingUsed 11 DoTestOrNot 
2 Education 12 Smoking2Quityears 
3 Activity 13 Age 
4 Season 14 Height 
5 PartsOfBody 15 MenstruationStatus 
6 Habit 16 When 
7 FaceCleansingProduct 17 MoisturizerFace 
8 Correctness 18 Smoking2Degree 
9 Pregnant 19 Income 
10 SunProtection 20 MoisturizerArms 


表 7.13 等 频 法 处 理 总 数据 ,对 皮肤 水 润 进 行 10 划分 得 到 的 总 排序 结果 


排序 属性 名 称 排序 属性 名 称 
1 Education 11 Age 
2 Activity 12 MenstruationStatus 
3 Season 13 Showers 
4 Habit 14 When 
5 SPFbeingUsed 15 Correctness 
6 PartsOfBody 16 YoungerOlder 
7 FaceCleansingProduct 17 Occupation1 
8 SmokingDegree 18 DoTestOrNot 
9 SunProtection 19 Smoking2Degree 
10 DrinkingDegree 20 Pregnant 


从 表 7.12 和 表 7. 13 可 以 看 出 ,这 个 结果 与 等 宽 法 得 到 的 结果 有 所 不 同 ,但 大 体 上 还 是 
相近 的 。 上 述 仅仅 给 出 了 基于 10 划分 数据 预 处 理 方法 的 关键 特征 提取 的 总 排序 结果 如 


表 7.14 所 示 。 


表 7.14 人 工法 处 理 总 数据 ,对 皮肤 水 润 进行 10 划分 得 到 的 总 排序 结果 


排序 属性 名 称 排序 属性 名 称 
1 SPFbeingUsed 11 Correctness 
2 Education 12 Age 
3 Activity 13 MoisturizerArms 
4 Habit 14 MenstruationStatus 
5 PartsOfBody 15 MenstruationStoped 
6 Season 16 Pregnant 
7 FaceCleansingProduct 17 When 
8 SunProtection 18 MoisturizerFace 
9 Drinking 19 MenstruationRegular 
10 DoTestOrNot 20 MenstruationStarted 


这 个 结果 与 等 宽 法 .等 频 法 得 到 的 结果 也 比较 相近 。 上 述 仅仅 给 出 了 基于 10 划分 数据 


预 处 理 方法 的 关键 特征 提取 的 总 排序 结果 。 


7.4.4 特征 提取 与 分 析 结 论 
1. 皮肤 白 度 


采用 三 种 方法 得 到 的 排名 结果 虽然 有 所 区 别 , 但 是 排名 在 前 15 名 的 因素 有 12 个 是 相 
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同 的 (10 划分 )。 这 12 个 属性 为 Age、 Season, Activity, PartsOfBody, Habit, Weight, 
MenstruationRegular, MenstruationStoped, MenstruationStatus, Pregnant, Education 和 
Occupationl。 它 们 分 别 代表 受 试 者 年 龄 .使 用 防晒 品 的 季节 、 在 何 种 活动 下 使 用 防晒 品 、 在 
哪些 部 位 使 用 防晒 品 、 使 用 防晒 品 习惯 .体重 .月 经 是 否 正常 .月 经 是 否 停止 月 经 周期 状况 、 
怀孕 次 数 、 受 教育 程度 .室内 外 工作 情况 。 对 预测 目标 采用 等 频 法 进行 划分 ,可 以 很 明显 地 
看 出 这 些 属 性 都 是 比较 有 区 分 度 的 。 


2. 色 斑 比 例 


采用 三 种 方法 得 到 的 排名 结果 虽然 有 所 区 别 , 但 是 排名 在 前 15 名 的 因素 有 13 个 是 相 
同 的 (10 划分 )。 这 13 个 属性 为 Age、Pregnant、MenstruationStoped、 Activity, Education, 
MenstruationStatus, Weight, MenstruationRegular, MenstruationStarted, Melasma, Habit, 
AllergicChoice 和 Season。 它 们 分 别 代表 受 试 者 年 龄 .怀孕 次 数 . 月 经 是 否 停止 .在 何 种 活 
动 下 使 用 防晒 品 、 受 教育 程度 .月 经 周期 状况 体重, 月 经 是 否 正常 .月 经 是 否 开始 .是 否 有 黑 
斑 病 、 使 用 防晒 品 习惯 .过 敏 时 的 做 法 和 使 用 防晒 品 的 季节 。 对 预测 目标 采用 等 频 法 进行 划 
分 ,可 以 很 明显 地 看 出 这 些 属性 都 是 比较 有 区 分 度 的 。 


3. 水 润 度 


采用 三 种 方法 得 到 的 排名 结果 虽然 有 所 区 别 ,但 是 排名 在 前 10 名 的 因素 有 8 个 是 相同 
的 。 这 8 个 属性 为 SPFbeingUsed、 Education, Activity, Habit, Season, PartsOfBody, 
FaceCleansingProduct 和 SunProtection。 它 们 分 别 代 表 受 试 者 使 用 的 化 妆 品 SPF 指数 、 受 
教育 情况 ,在 何 种 活动 下 会 使 用 化 妆 品 、 使 用 化 妆 品 习惯 \ 使 用 化 妆 品 季节 ,使 用 化 妆 品 部 
位 、 洗 脸 使 用 的 物品 和 防晒 习惯 。 这 些 指 标 都 有 实际 合理 的 物理 意义 。 对 预测 目标 采用 等 
频 法 进行 划分 ,可 以 很 明显 地 看 出 这 些 属性 都 是 比较 有 区 分 度 的 。 


7.4.5 小 结 


本 节 主 要 针对 预测 模型 的 关键 输入 特征 提取 ,讨论 了 关键 特征 提取 策略 与 结果 ,以 及 结 
果 的 处 理 与 分 析 等 方面 的 内 容 。 本 节 列 举 了 采用 的 8 种 关键 特征 提取 方法 ,并 给 出 综合 这 
些 方法 得 到 总 特征 排序 的 策略 。 针 对 北京 数据 ,广州 数据 与 合并 后 数据 的 关键 特征 分 别 进 
行 关键 特征 的 提取 ,并 采用 了 等 宽 法 .等 频 法 和 人 工法 三 种 方式 。 在 结果 处 理 与 分 析 方 面 ， 
对 不 同 地 区 数据 情况 .不同 划 分 方法 和 不 同 预 处 理 方法 得 到 的 结果 进行 了 简单 的 分 析 ,并 讨 
论 了 所 提取 的 关键 特征 。 


7.5 ”皮肤 特征 预测 模型 


预测 模型 主要 采用 关键 特征 提取 阶段 得 到 的 特征 作为 输入 属性 ,并 根据 人 工 观 察 的 结 
果 添 加 了 一 些 新 的 属性 。 在 建立 预测 模型 阶段 ,本 文 直接 将 连续 型 属性 的 值 规范 化 后 作为 
输入 值 , 而 没有 进行 离散 化 操作 。 接 下 来 的 小 节 将 针对 皮肤 白 度 、 色 斑 比 例 和 皮肤 水 润 的 情 
况 做 具体 说 明 。 
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7.5.1 预测 方法 回顾 


本 节 一 共 尝 试 了 5 种 方法 建立 回归 模型 来 完成 预测 任务 ,并 对 这 5 种 模型 的 结果 进行 
了 比较 与 分 析 。 文 中 采用 了 4 种 评测 方式 ,并 参考 了 多 种 评价 标准 的 评价 结果 。 本 小 节 将 
分 别 介绍 采用 的 回归 模型 .评测 方式 和 评价 标准 。 


1. 回归 模型 介绍 


本 章 尝试 的 5 种 模型 分 别 介绍 如 下 : 

d) 最 小 平方 误差 中 数 法 (LeastMedSq) 

该 方法 采用 线性 回归 方法 ,并 将 平方 误差 的 中 数 作 为 评价 标准 。 具 有 最 低 平方 误差 中 
数 的 最 小 平方 回归 结果 将 会 被 作为 最 终 的 预测 模型 。 

(2) 线性 回归 法 (LinearRegression) 

该 方法 采用 线性 回归 方法 ,并 将 赤 池 准则 (akaike criterion) 作 为 评价 标准 。 该 方法 可 
以 使 用 整个 特征 集 ,或 者 采用 贪心 法 /最 好 优先 法 自动 选择 参与 回归 的 特征 集 。 

(3) 神经 网 络 (MultilayerPerceptron) 

该 方法 为 BP 型 神经 网 络 , 中 间 的 节点 为 sigmoid 单元 ,最 后 的 节点 为 线性 单元 。 

(4) 支持 向 量 机 (SVMreg) 

该 方法 采用 支持 向 量 机 进行 预测 ,可 以 设置 核 与 优化 方法 。 

(5) M5 Rule 

该 方法 采用 分 而 治之 的 方法 为 回归 问题 生成 决策 列表 。 每 次 迭代 时 用 M5 方法 生成 模 
型 树 ,并 将 最 好 的 叶子 节点 作为 生成 规则 。 


2. 测试 方法 说 明 


本 节 使 用 了 4 种 测试 方法 来 评价 预测 模型 ,这 4 种 测试 方法 分 别 说 明 如 下 : 

(1) Training set。 该 方法 使 用 整个 数据 集 作为 训练 集 并 用 整个 数据 集 作 为 测试 集 进行 
测试 。 

(2) 10-folds。 该 方法 使 用 10 交叉 验证 法 训练 与 评测 模型 , 即 每 次 使 用 90% 的 数据 作 
为 训练 集 ,剩余 10% 的 数据 作为 测试 集 , 如 此 重复 10 次 。 

G) 66%。 该 方法 使 用 2/3 的 数据 作为 训练 集 ,剩余 数据 作为 测试 集 。 

(4) 80%。 该 方法 使 用 4/5 的 数据 作为 训练 集 ,剩余 数据 作为 测试 集 。 


3. 评价 标准 说 明 
本 节 主 要 参考 了 5 种 评价 标准 ,包括 相关 系数 .平均 绝对 误差 均 方 根 误差 .相对 绝对 误 


差 和 相对 平方 误差 根 值 。 这 5 种 评价 标准 说 明 如 下 : 
相关 系数 (Correlation coefficient) : 


SY Qi — Plai — @)/(n—1) 
Spa i 
SrSa Mpi-—p)” D aia 


n—1 n—1 


(7-2) 
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平均 绝对 误差 (Mean absolute error) : 


| al 一 cl |+| a2—c2 | 十 … 十 | an — cn 


(7-3) 
n 
均 方 根 误差 (Root mean squared error); 
=A EE oe =n 
Je cl)? + (a2 — c2)" + =+ Can — cn) (7-4) 
n 
相对 绝对 误差 (Relative absolute error) : 
| al 一 cl | 十 | a2 一 c2 | 十 … 十 | an—cn | (7-5) 
| al—a@ |4+| a2—a@ | 十 … 十 | an—ā | 
相对 平方 误差 根 值 (Root relative squared error) : 
{eee et ena (7-6) 
(al—a)’? + (a2—a)? ++ + Can — a)? 


对 于 使 用 Training set 作为 测试 方法 的 情况 ,本 节 还 尝试 使 用 平均 相对 误差 作为 评价 
标准 。 该 标准 说 明 如 下 : 
|al—cl | / | al |+|a2—c2|/ | a2 |+--+| an—cn | /| an | 


n 
这 几 项 指标 ,第 一 项 为 相关 系数 , 越 大 说 明 预 测 模型 越 准确 ;后 5 项 为 误差 , 越 小 越 好 。 
使 用 这 些 指 标 已 经 足以 完成 对 不 同 回 归 模 型 性 能 的 研究 任务 了 。 


7.5.2 预测 结果 分 析 与 结论 
1. 皮肤 白 度 预 测 结果 分 析 


(1) 回归 模型 性 能 比较 

采用 上 述 建 模 方法 ,在 设置 比较 不 同 参 数 后 ,建立 了 相应 的 预测 模型 ,得 到 的 测试 结果 
如 表 7. 15 所 示 。 表 中 给 出 了 采用 4 种 评测 方式 和 5 种 评价 标准 对 预测 模型 进行 评估 的 
结果 。 
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表 7.15 5 种 方法 对 皮肤 白 度 建 模 的 预测 效果 对 比 表 


LEAST | LINEAR | MULTILAYER SVM 
Wk 测 效果 到 M5 RULE 
皮肤 白 度 预 测 效果 对 比 。 | MEDSQ | REGRESSION| PERCEPTRON | REGRESSION | M5 
Correlation 0. 6601 0. 6582 0. 6985 0. 6545 0. 6582 
coefficient 
M P 
ean absolute | jog 1. 9543 1.852 1.9211 1. 9543 
error 
TID | eon 2. 4478 2. 4497 2. 3286 2. 4642 2. 4497 
Set squared error 
Relative absol 
anve TE | 95518 73.86% 70.00% 72.61% 73.86% 
error 
Root relative 
15.22% 75. 28% 71.56% 75.73% 75. 28% 
squared error 


续 表 


LEAST | LINEAR | MULTILAYER SVM 
: M5 RULE 
皮肤 白 度 项 测 效果 对 比 | MEDSQ | REGRESSION| PERCEPTRON | REGRESSION 
Correlation 
s 0. 6155 0. 6181 0. 6253 0. 6042 0. 6271 
coefficient 
Mean absolute 
2. 0485 2. 0405 2. 0163 2. 0804 2.0241 
error 
Root mean 
10-folds 2.571 2. 5618 2. 5493 2.611 2.5372 
squared error 
Relative absolut 
| 76.99% 76.08% 78.50% 76.37% 
error 
Root relative " M 
78.85% 78.57% 78.19% 80. 08% 717.82% 
squared error 
Correlation 
A 0. 6389 0. 6405 0. 647 0. 6353 0. 6402 
coefficient 
Me bsol 
| a 9762 2.0195 1. 9762 2.0143 2.0172 
error 
Root 
66% ete 2. 4678 2. 4954 2. 4948 2. 5337 2. 4984 
squared error 
Relative absol 
SARVE ROBO | 97.98% 79.68% 71.97% 79.47% 79.58% 
error 
Root relative 
77.39% 78. 26% 78. 24% 79. 46% 78, 35% 
squared error 
Correlation 
0. 6086 0. 5998 0. 6064 0.5941 0. 6304 
coefficient 
Mean absol 
Femara | F ogag 2. 0112 1. 9433 2. 0229 1.9701 
error 
R 
80% oa 2. 4562 2. 4687 2. 4846 2.5252 2.39 
squared error 
Relative absol 
eative absolute | 32 00% | 83.11% 80. 30% 83.59% 81. 40% 
error 
Root relative 
80. 62% 81.03% 81.55% 82. 88% 78.45% 


squared error 
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由 于 不 同 测试 方法 所 选 的 数据 集 不 同 ,评测 指标 可 能 有 相 违 背 的 地 方 。 例 如 ,在 
Training set 方法 中 ,采用 LeastMedSq 预测 方法 得 到 的 平均 绝对 误差 小 于 Linear- 
Regression 得 到 结果 的 误差 ,而 在 10-folds 方法 中 结果 正好 相反 。 这 个 结果 图 表示 ,5 种 分 
类 器 的 预测 效果 相差 不 大 ,神经 网 络 略 优 于 其 他 4 种 线性 方法 。 这 可 能 是 因为 线性 拟 合 的 
准确 度 有 限 所 造成 的 。 使 用 Training set 作为 测试 方法 时 ,这 5 种 模型 的 平均 相对 误差 如 
表 7.16 所 示 。 


表 7.16 5 种 方法 对 皮肤 白 度 建 模 得 到 平均 相对 误差 对 比 表 


模 型 LEAST LINEAR MULTILAYER SVM M5 RULE 
MEDSQ REGRESSION | PERCEPTRON | REGRESSION 


平均 相对 误差 0. 0324 0. 0325 0. 0308 0. 0319 0. 0325 


上 面 的 结果 也 表示 ,神经 网 络 方法 优 于 其 他 方法 。 该 方法 的 绝对 误差 约 为 1. 85, 相 对 
误差 约 为 0.03, 这 个 结果 还 是 比较 令 人 满意 的 。 

(2) 回归 模型 相关 性 分 析 

采用 上 述 5 个 回归 模型 ,使 用 整个 集合 作为 训练 集 ,得 到 5 组 预测 值 ,如 表 7. 17 所 示 。 
表 中 第 一 列 为 数据 标号 ,第 二 列 为 皮肤 白 度 的 准确 值 ,后 面 5 列 依次 为 采用 最 小 平方 误差 中 
数 法 (LeastMedSq) ,线性 回归 法 (LinearRegression) .神经 网 络 (MultilayerPerceptron) 、 支 
持 向 量 机 (SVMreg) 以 及 M5 Rule 方 法 得 到 的 预测 结果 。 


表 7.17 5 种 回归 模型 对 皮肤 白 度 的 预测 结果 对 比分 析 表 


数据 ACTUAL LEAST LINEAR MULTILAYER SVM 


M5 RULE 
标号 | EAD MEDSQ | REGRESSION | PERCEPTRON| REGRESSION 

1 62.38 | 63.57964275 | 63.05382003 | 64.61825771 | 62.85772755 | 63. 05382003 

2 64.29 | 63, 60008527 | 62. 99393047 | 63. 71943957 | 63.31243611 | 62. 99393047 


3 65. 81333333 | 63. 62019033 | 63.07400777 | 63. 73862419 | 63, 02651059 63. 07400777 


4 65. 16333333 | 62.47448712 | 62.04764744 | 62.50322597 | 62. 28319256 62. 04764744 


5 63. 04333333 | 62.57077385 | 61.95881619 | 62.29719631 | 61.96161717 61. 95881619 


6 63.9 | 62.72862939 | 62. 76891494 63.6197427 | 62. 25133447 62. 76891494 


7 60. 87666667 | 63. 19174456 63. 4551372 | 63. 84175351 63. 0373693 63. 4551372 


8 61. 32666667 | 61.93020455 | 61.84385106 | 62. 36974059 61. 4129478 61. 84385106 


9 64. 60666667 | 63. 14061545 | 63. 00381658 | 63.37511624 | 63. 10119028 63. 00381658 


10 59. 94666667 | 62. 85954884 | 62.52268024 | 62. 78491113 62. 507881 62. 52268024 


11 66. 43333333 | 63. 22760753 | 62. 95888524 | 63. 50648635 | 62. 74422069 62. 95888524 


12 64. 85666667 | 62. 65508873 | 61. 68839224 | 62. 13253607 | 62. 04240321 61. 68839224 


13 61. 18666667 | 63. 19654962 | 63. 39947103 | 64. 13952266 | 63. 15136746 63. 39947103 


14 57. 29666667 | 60. 14478306 | 59. 88146546 60. 0758087 | 60. 41877192 59. 88146546 


15 61.18 | 62. 77128093 63. 3622799 | 61. 88637094 | 63. 00522858 63. 3622799 


数据 ACTUAL LEAST 


标号 | (真实 值 ) 


MEDSQ 


R 


LINEAR MULTILAYER 


EGRESSION 


PERCEPTRON 


SVM 
REGRESSION 


BER 


M5 RULE 


16 


62.59 | 60.01825958 


60. 02479935 


60. 23864969 


60. 00011024 


60. 02479935 


17 60. 21666667 


62. 34236911 


61. 90752319 


62. 37429927 


62. 15039373 


61. 90752319 


18 57. 86333333 


58. 69880012 


57. 75659057 


58. 71438579 


58. 26623743 


57. 75659057 


19 


59. 24 59. 7745845 


59. 29043611 


58. 75053654 


59. 62809511 


59. 29043611 


20 


64.01 | 62. 28418839 


62. 0628452 


62. 22567787 


62. 5531586 


62. 0628452 


对 于 这 5 组 预测 结果 ,将 其 与 采用 临床 医学 实验 得 到 的 皮肤 白 度 值 放 在 一 起 做 相关 性 
分 析 , 得 到 相关 分 析 结 果 如 表 7. 18 所 示 。 


表 7.18 5 种 模型 对 皮肤 白 度 预测 结果 与 真实 值 的 相关 性 分 析 结 果 


Actual | LeastMedSq | LinearReg NN SVMreg | M5Rules 
Pearson Correlation 1 .660™ .658™ .699™ . 654" . 658" 
Actual | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 
Pearson Correlation 660" 1 983" 956" . 986" 983" 
LeastMedSq | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 
Pearson Correlation 658" 9837" 1 . 954" . 980% . 1000" 
LinearReg | Sig. (2-tailed) . 000 .000 .000 .000 .000 
N 605 605 605 605 605 605 
Pearson Correlation 699" 956" 954" 1 946" .954” 
NN Sig. (2-tailed) .000 .000 .000 .000 .000 
N 605 605 605 605 605 605 
Pearson Correlation | .654™ .986™ .980™ 946™ 1 .980™ 
SVMreg |Sig. (2-tailed) .000 .000 .000 .000 .000 
N 605 605 605 605 605 605 
Pearson Correlation | . 658" 9837 1000 954° . 980" 1 
M5Rules | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 


**, Correlation is significant at the 0.01 level (2-tailed) 


K 7.18 中 ,Actual 表示 采用 临床 医学 实验 得 到 的 皮肤 白 度 结果 ,后 5 种 为 回归 模型 得 
到 的 结果 。 表 7. 18 中 给 出 了 三 个 指标 ,其 中 Pearson Correlation 表示 两 个 数组 间 的 相关 系 
数 ,Sig. (2-tailed) 表 示 相 关 显 著 性 ,N 表示 每 个 数组 的 元 素 个 数 。 该 表 表 明 ,准确 值 与 预测 
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值 的 相关 性 都 在 0. 65 以 上 ,并 在 0. 01 显著 水 平 上 可 以 接受 。 另 外 还 可 以 看 出 ,这 5 个 回归 
模型 的 预测 结果 相互 之 间 的 相关 性 都 在 0.95 以 上 ,这 说 明 它 们 本 身 也 是 比较 接近 的 。 
(3) 预测 结果 展示 


图 7. 10 表示 神经 网 络 方法 应 用 于 Training set 的 预测 结果 , 横 轴 表示 预测 目标 的 真实 
值 , 纵 轴 表示 预测 值 。 可 以 看 出 ,预测 分 布 接近 于 函数 > 一 zx, 个 别 点 偏离 较 远 。 


65.786 x 


60.149 


49.827 59.517 69.207 


图 7.10 神经 网 络 方法 对 皮肤 白 度 指标 进行 仿真 的 结果 图 


2. 色 斑 比例 预测 结果 分 析 


A) 回归 模型 性 能 比较 
采用 与 上 面相 同 的 方法 ,建立 了 针对 色 斑 比例 的 预测 模型 ,得 到 的 测试 结果 如 表 7. 19 
所 示 。 表 中 给 出 了 采用 4 种 评测 方式 和 5 种 评价 标准 对 预测 模型 进行 评估 的 结果 。 


表 7.19 5 种 方法 对 色 斑 比 例 建 模 的 预测 效果 对 比 表 


LEAST LINEAR MULTILAYER SVM 
MESS M5 RULE 
色 班 比例 预测 效果 对 比 。 | MEDSQ | REGRESSION| PERCEPTRON | REGRESSION 
Beeld 0. 6006 0. 6091 0. 6534 0. 5966 0. 6903 
coefficient 
Mean absolute 0.0109 0.0111 0. 0105 0. 0107 0. 0102 
error 
Training Root mean 0.0149 0. 0145 0. 0139 0.015 0. 0133 
set squared error 
Relative absol 
elative absolute 74.45% 75.66% 71.82% 72.56% 69.59% 
error 
R lati 
oot relative 81.27% 79.31% 75.71% 81.63% 72.36% 
squared error 
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续 表 


LEAST | LINEAR | MULTILAYER SVM 
5 M5 RULE 
色 班 比例 预测 效果 对 比 。 | MEDSQ | REGRESSION | PERCEPTRON | REGRESSION 
Correlation 
ne 0. 5702 0. 5634 0. 5923 0. 5693 0. 5413 
coefficient 
Mean absolute | ig 0.0116 0. 0114 0.0112 0. 0118 
error 
Root mean 
10-folds 0. 0153 0.0152 0. 0148 0.0154 0. 0156 
squared error 
ive absol 
Relative absolute | 77 40% | 78.77% 77.27% 76. 25% 79.93% 
error 
Root relative 
83.17% 82.65% 80. 70% 83.73% 84. 82% 
squared error 
Correlation 
H 0. 5811 0. 5814 0. 6007 0. 5575 0. 5931 
coefficient 
M bsol 
can absolute | 0, 0115 0. 0116 0. 0115 0.0118 0.0113 
error 
Root 
66% aaa 0. 0156 0. 0153 0. 0152 0.0161 0. 0151 
squared error 
Relati bsol 
| 77.27% 76. 60% 78.85% 75. 38% 
error 
Root relative 
82.57% 80. 99% 80. 21% 85.05% 79. 82% 
squared error 
Correlation 
ae 0. 5089 0. 5024 0. 5218 0. 498 0.5193 
coefficient 
Mean absol 
camansomre’ | oag 0.012 0.0117 0.012 0.0117 
error 
R 
80% re 0. 0162 0. 016 0. 0158 0.0165 0. 0158 
squared error 
Relative absol 
| 84.11% 82.10% 83.67% 82.21% 
error 
Root relative 
88. 32% 87.59% 86.19% 90.00% 86.54% 
squared error 


由 于 不 同 测试 方法 所 选 的 数据 集 不 同 ,评测 指标 可 能 有 相 违 背 的 地 方 。 例 如 ,在 
Training set 方法 中 ,采用 LeastMedSq 预测 方法 得 到 的 平均 绝对 误差 小 于 
LinearRegression 得 到 结果 的 误差 ,而 这 两 种 方法 得 到 的 平均 平方 根 误差 结果 正好 相反 。 
这 个 结果 表示 ,5 种 分 类 器 的 预测 效果 有 一 定 差别 , M5 Rules 方法 应 用 于 整个 数据 集 的 结 
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果 最 优 ,但 是 其 采用 10-folds 等 测试 方法 时 结果 不 如 神经 网 络 方法 。 而 神经 网 络 相 对 比较 
稳定 ,结果 较 其 他 三 种 方法 更 好 。 从 表 中 可 以 看 出 ,应 用 于 训练 集 最 优 的 M5 Rules 方法 ， 
其 绝对 误差 均值 为 0.0102。 由 于 色 斑 比例 本 身 的 绝对 值 均 值 为 0.027, 故 绝对 误差 均值 与 
预测 目标 值 均值 的 比 达 到 37. 8% ,这 个 比例 比较 高 。 

(2) 回归 模型 相关 性 分 析 

采用 上 述 5 个 回归 模型 ,使 用 整个 集合 作为 训练 集 , 得 到 5 组 预测 值 ,如 表 7. 20 所 示 。 
表 中 第 一 列 为 数据 标号 ,第 二 列 为 色 斑 比 例 的 准确 值 , 后 面 5 列 依次 为 采用 最 小 平方 误差 中 
数 法 (LeastMedSq) ,线性 回归 法 (LinearRegression) 神经 网 络 (MultilayerPerceptron) 、 支 
持 向 量 机 (SVMreg) 以 及 M5 Rule 方法 得 到 的 预测 结果 。 


表 7.20 5 种 回归 模型 对 色 斑 比例 的 预测 结果 对 比分 析 表 


数据 ACTUAL LEAST LINEAR MULTILAYER SVM M5 RULE 
标号 (真实 值 ) MEDSQ REGRESSION | PERCEPTRON | REGRESSION 
1 0.00381205 | 0.013800601 | 0.016456167 | 0.010902154 0.01166116 0.006746644 
2 0.0888954 | 0.016378535 | 0.018985392 | 0.021846154 | 0.017705919 0.031185816 
3 0.00957472 | 0.013341259 0.01990773 | 0.008436386 | 0.009184714 0.007148917 
4 0.00520129 | 0.010129284 | 0.013870009 | 0.010351138 | 0.009329755 0.010765114 
5 0.00801926 | 0.013272276 | 0.016652631 | 0.013695988 | 0.013539338 0.010821305 
6 0 | 0.011608102 | 0.014787091 | 0.012375061 | 0.011179124 0.011817952 
a 0. 00722452 | 0.016390149 | 0.020339954 | 0.015712173 | 0. 013764952 0. 006245231 
8 0.01605 | 0.012965924 | 0.016786125 | 0.014426341 | 0, 012292532 0. 011980263 
9 0.00701813 | 0.010979045 0. 01305959 0.01451026 | 0. 010907666 0.010475045 
0 0. 0270356 0. 0089642 | 0.012843478 | 0.009157867 | 0. 007893895 0.010874076 
1 0.0167873 | 0.016598127 | 0.017064769 | 0.009895816 | 0.016891603 0.006196172 
2 0.0373727 | 0.030492156 | 0.030819836 | 0.029205619 | 0.027671984 0.034905049 
3 0.0195898 | 0.017699201 | 0.017318856 | 0.012678414 | 0.015465398 0.01405866 
4 0.0269785 | 0.029906776 | 0.032635554 | 0.030886058 | 0.031421069 0.030487404 
5 0.0013314 | 0.008220741 | 0.012448349 | 0.005632428 | 0. 007390481 0.005683413 
6 0.0164406 | 0.018735519 | 0.018015091 | 0.023875607 0.02164497 0.026045124 
i 0. 00506233 | 0. 010200031 | 0. 013884304 0. 01024268 0. 00930349 0. 010552143 
8 0. 0249868 | 0.031113861 | 0.037067673 | 0. 040880504 | 0. 035228734 0. 032112295 
9 0. 0368328 | 0.027944724 | 0.030834131 | 0.029677875 | 0. 026333544 0. 029680699 
20 0. 0148715 | 0. 023717396 0. 02879808 | 0.031305781 | 0. 021098246 0. 030147231 


对 于 这 5 组 预测 结果 ,将 其 与 采用 临床 医学 实验 得 到 的 色 斑 比 例 值 放 在 一 起 做 相关 性 
分 析 ,得 到 相关 分 析 结 果 如 表 7. 21 所 示 。 
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表 7.21 5 种 模型 对 色 斑 比例 预测 结果 与 真实 值 的 相关 性 分 析 结 果 


Actual | LeastMedSq | LinearReg NN SVMreg | M5Rules 
Pearson Correlation 1 . 601" . 609" . 6667 . 596" . 689" 
Actual Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 
Pearson Correlation | . 6017 1 .982™ - 936" .977™ .864™ 
LeastMedSq| Sig. (2-tailed) .000 .000 .000 .000 .000 
N 605 605 605 605 605 605 
Pearson Correlation | .609™ .982™ i i” .971™ . 874" 
LinearReg | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 
Pearson Correlation | . 666" . 936" . 943" 1 . 925" .909™ 
NN Sig. (2-tailed) .000 .000 .000 .000 .000 
N 605 605 605 605 605 605 
Pearson Correlation | .596” .977" . 971" . 925" 1 .857™ 
SVMreg |Sig. (2-tailed) .000 .000 .000 .000 .000 
N 605 605 605 605 605 605 
Pearson Correlation | .689” . 864" . 874" : 909° . 857" 1 
M5Rules | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 


**, Correlation is significant at the 0. 01 level (2-tailed) 


表 7. 21 中 ,Actual 表示 采用 临床 医学 实验 得 到 的 色 斑 比 例 结果 ,后 5 种 为 回归 模型 得 
到 的 结果 。 表 7. 21 中 给 出 了 三 个 指标 ,其 中 Pearson Correlation 表示 两 个 数组 间 的 相关 系 
数 ,Sig. (2-tailed) 表 示 相 关 显 著 性 ,N 表示 每 个 数组 的 元 素 个 数 。 该 表 表 明 ,准确 值 与 预测 
值 的 相关 性 都 在 0. 59 以 上 ,并 在 0. 01 显著 水 平 上 可 以 接受 。 这 5 个 回归 模型 中 ,M5 Rules 
方法 得 到 的 结果 与 其 他 结果 略 有 差别 ,而 其 他 4 种 方法 的 预测 结果 比较 相近 。 

(3) 预测 结果 展示 

图 7. 11 表示 神经 网 络 方法 应 用 于 Training set 的 预测 结果 , 横 轴 表示 预测 目标 的 准确 
值 , 纵 轴 表示 预测 值 。 可 以 看 出 ,真实 值 与 预测 值 呈 较 强 的 正 相 关 , 但 并 没有 精确 的 符合 函 
数 y= 


3. 皮肤 水 润 预测 结果 分 析 


(1) 回归 模型 性 能 比较 
采用 与 上 面相 同 的 方法 ,建立 了 针对 皮肤 水 润 的 预测 模型 ,得 到 的 测试 结果 如 表 7. 22 
所 示 。 表 中 给 出 了 采用 4 种 评测 方式 和 5 种 评价 标准 对 预测 模型 进行 评估 的 结果 。 
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图 7.11 神经 网 络 方法 对 色 斑 比例 指标 进行 仿真 的 结果 图 
表 7.22 5 种 方法 对 皮肤 水 润 建 模 的 预测 效果 对 比 表 
, LEAST | LINEAR | MULTILAYER SVM 
my M 
皮肤 水 润 预 测 效 果 对 比 | MEDSQ | REGRESSION| PERCEPTRON | REGRESSION | M5 RULE 
Correlation 0. 4223 0. 4156 0. 4419 0. 4177 0. 4156 
coefficient 
M s 
eanvabsolute: | © jag 9. 1347 9. 0248 8. 9812 9. 1347 
error 
Training Root mean 
11. 3859 11. 4062 11. 2502 11. 4225 11. 4062 
set squared error 
Relative absolute 
90. 62% 91.53% 90.42% 89.99% 91.53% 
error 
Root relati 
oot relative | 90,79% 90. 96% 89.71% 91.09% 90. 96% 
squared error 
Correlation 0. 3604 0. 3607 0. 3305 0. 3477 0. 3607 
coefficient 
Mean absolute | 9 3563 9. 3959 9. 5182 9. 4938 9. 3959 
error 
10-folds Root mean 11. 7556 11.72 11. 921 11. 8486 11.72 
squared error 
Relative absol 
| 93.95% 95.18% 94.93% 93.95% 
error 
Root relative 
93. 60% 93. 32% 94.92% 94.34% 93. 32% 


squared error 
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续 表 


LEAST | LINEAR | MULTILAYER SVM 
M5 RULE 
皮肤 水 润 预 测 效果 对 比 | MEDSQ | REGRESSION | PERCEPTRON | REGRESSION 
Correlation 
a 0. 3403 0. 3657 0. 3319 0. 2747 0. 3657 
coefficient 
Mean absol 
Ce | 5.3248 9. 2048 9. 368 9. 6227 9. 2048 
error 
Root mean 
66% 11. 5904 11. 457 11. 6441 11. 9422 11. 457 
squared error 
Relative absol 
Clative absolute | 93 40% 92.19% 93. 83% 96. 38% 92.19% 
error 
Root relative 
94.19% 93.11% 94. 63% 97.05% 93.11% 
squared error 
F : 
Re A 0. 3596 0. 3667 0. 3544 0. 3899 0. 3667 
coefficient 
M absol 
| 9. 1384 9. 188 9.1767 9. 1384 
error 
R e; 
80% Y 11. 5979 11. 4902 11. 5768 11. 4912 11. 4902 
squared error 
Relative absolute 
| 92.07% 92.57% 92. 46% 92.07% 
error 
Root relative P 
94.16% 93. 28% 93. 99% 93. 29% 93. 28% 
squared error 
| ee eee eee eee 


由 于 不 同 测试 方法 所 选 的 数据 集 不 同 ,评测 指标 可 能 有 相 违 背 的 地 方 。 例 如 ,在 
Training set 方法 中 ,采用 LeastMedSq 预测 方法 得 到 的 平均 绝对 误差 小 于 Linear 
Regression 得 到 结果 的 误差 ,而 这 两 种 方法 得 到 的 平均 平方 根 误差 结果 正好 相反 。 相 关 结 
果 表 明 ,5 种 分 类 器 的 预测 效果 有 一 定 差别 ,M5 Rules 方法 应 用 于 整个 数据 集 的 结果 最 优 ， 
但 是 其 采用 10-folds 等 测试 方法 时 结果 不 如 神经 网 络 方法 。 而 神经 网 络 相 对 比较 稳定 , 结 
果 也 较 其 他 4 种 方法 更 好 。 从 表 中 可 以 看 出 ,应 用 于 训练 集 最 优 的 M5 Rules 方法 ,其 绝对 
误差 均值 为 0.0102。 由 于 皮肤 水 润 本 身 的 绝对 值 均值 为 0. 027, 故 绝对 误差 均值 与 预测 目 
标 值 均值 的 比 达到 37. 8% ,这 个 比例 比较 高 。 

(2) 回归 模型 相关 性 分 析 

采用 上 述 5 个 回归 模型 ,使 用 整个 集合 作为 训练 集 ,得 到 5 组 预测 值 ,如 表 7. 23 所 示 。 
表 中 第 一 列 为 数据 标号 ,第 二 列 为 皮肤 水 润 的 准确 值 ,后 面 5 列 依次 为 采用 最 小 平方 误差 中 
数 法 (LeastMedSq) ,线性 回归 法 (LinearRegression)、 神 经 网 络 (MultilayerPerceptron) 、 支 
持 向 量 机 (SVMreg) 以 及 M5 Rule 方 法 得 到 的 预测 结果 。 
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表 7.23 5 种 回归 模型 对 皮肤 水 润 的 预测 结果 对 比分 析 表 


数据 | ACTUAL LEAST LINEAR | MULTILAYER SVM 

标号 (真实 值 ) MEDSQ REGRESSION | PERCEPTRON | REGRESSION MERULE 
1 49. 43333333 | 63. 8658493 | 62. 87526922 | 65.61725388 | 66. 8824124 62. 8752692 
2 59.53333333 | 59. 75786254 | 61. 67764651 | 62.23464032 | 60. 4140733 61. 6776465 
3 51.8 | 54.89659009 | 57.28592652 | 54.13206027 | 54. 5330711 57. 2859265 
4 63.36666667 | 56.05581216 | 55.24483346 | 55.79950185 | 57.3136252 55. 2448335 
5 64. 83333333 | 52.96725903 | 53. 49443688 | 52.1133288 | 53.4726139 53. 4944369 
6 45. 63333333 | 57.0904306 | 56. 2134539 | 56.29231449 | 57. 4286058 56. 2134539 
7 57. 63333333 | 56.49690556 | 57.34953001 | 55.68516139 56. 897645 57. 34953 
8 53. 73333333 | 55.04963298 | 56. 32090997 | 54.83732591 | 55, 2125066 56. 32091 
9 54.56666667 | 54.83225984 | 55.89104697 | 55.17806004 | 54, 7135092 55. 891047 
0 78.1 | 51.05640073 | 51.45334382 | 50.95722912 | 51. 1033199 51. 4533438 
1 | 50.26666667 | 51.79164022 | 51.54477443 | 51.94062165 | 51.5895434 51. 5447744 
2 | 63.73333333 | 62.08036531 | 62.49138937 | 62.60454657 | 62. 3445589 62. 4913894 
3 66.6 | 56.3807302 | 55.30843696 | 56.23113018 | 55.9878112 55. 308437 
4 | 64.36666667 | 58.9737516 | 58.99048755 | 60, 60841737 | 60. 0210987 58. 9904876 
5 | 54.63333333 | 45.00834039 | 45.1078386 | 44. 80846954 | 44. 8702118 45, 1078386 
6 | 64.16666667 | 60.01252271 | 57.93214002 | 56.78198567 | 64, 1363198 57, 93214 
z 36 | 56.05581216 | 55. 24483346 | 55.79950185 | 57. 3136252 55, 2448335 
8 | 38.53333333 | 53. 46047352 | 52. 50566819 | 51. 20856862 | 54. 5534116 52. 5056682 
9 66.1 | 51.65015221 | 50. 65585663 | 51. 39872838 | 51. 4549973 50. 6558566 
20 | 60, 23333333 60. 283564 | 58.2167047 | 59. 70809393 | 60, 6081525 58. 2167047 


对 于 这 5 组 预测 结果 ,将 其 与 采用 临床 医学 实验 得 到 的 皮肤 水 润 值 放 在 一 起 做 相关 性 
分 析 , 得 到 相关 分 析 结果 如 表 7. 24 所 示 。 


表 7.24 5 种 模型 对 皮肤 水 润 预 测 结果 与 真实 值 的 相关 性 分 析 结 果 


Actual | LeastMedSq | LinearReg NN SVMreg | M5Rules 
Pearson Correlation 1 . 422" . 416° . 442" . 418" . 416" 
Actual Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 
Pearson Correlation | .422™ 1 . 964" 969" . 983" .964™ 
LeastMedSq| Sig. (2-tailed) .000 .000 .000 .000 .000 
N 605 605 605 605 605 605 
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续 表 


Actual | LeastMedSq | LinearReg NN SVMreg | M5Rules 

Pearson Correlation .416™ .964™ 1 . 955" . 9527 . 1000™ 
LinearReg | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 

Pearson Correlation | . 442” . 969” . 955" 1 . 961" . 955" 
NN Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 

Pearson Correlation | . 418% . 983" 952" 961" 1 952" 
SVMreg | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 
N 605 605 605 605 605 605 

Pearson Correlation | . 416" . 964" . 1000" . 955" . 952" 1 
M5Rules | Sig. (2-tailed) . 000 . 000 . 000 . 000 . 000 

N 605 605 605 605 605 605 


##。 Correlation is significant at the 0. 01 level (2-tailed) 


K 7.24 中 ,Actual 表示 采用 临床 医学 实验 得 到 的 皮肤 水 润 程度 结果 ,后 5 种 为 回归 模 
型 得 到 的 结果 。 表 7. 24 中 给 出 了 三 个 指标 ,其 中 Pearson Correlation 表示 两 个 数组 间 的 相 
关系 数 ,Sig. (2-tailed) 表 示 相 关 显 著 性 ,N 表示 每 个 数组 的 元 素 个 数 。 该 表 表 明 ,准确 值 与 
预测 值 的 相关 性 都 在 0.4 以 上 ,并 在 0.01 显著 水 平 上 可 以 接受 。 另 外 还 可 以 看 出 ,这 5 个 
回归 模型 的 预测 结果 相互 之 间 的 相关 性 都 在 0.95 以 上 ,这 说 明 它 们 本 身 也 是 比较 接近 的 。 

(3) 预测 结果 展示 

图 7. 12 表示 神经 网 络 方法 应 用 于 Training set 的 预测 结果 , 横 轴 表示 预测 目标 的 准确 
值 , 纵 轴 表示 预测 值 。 可 以 看 出 ,预测 分 布 呈 函 数 y= 二 x 型 ,但 是 带宽 比较 大 ,许多 点 偏离 较 
远 。 另 外 ,研究 发 现 预 测 值 并 没有 像 真 实 值 那 样 分 布 在 区 域 [17,48], 而 是 集中 在 中 间 分 布 
比较 密集 的 区 域 [40,70] 。 这 对 实际 预测 的 准确 度 影响 比较 大 。 


7.5.3 小 结 


本 章 主 要 采用 上 一 阶段 特征 提取 的 结果 作为 预测 任务 的 输入 ,对 皮肤 白 度 、 色 斑 比 例 和 
皮肤 水 润 程度 三 个 指标 建立 了 预测 模型 。 研 究 发 现 ,对 皮肤 白 度 指标 建立 的 5 种 预测 模型 
效果 相近 ,以 神经 网 络 方法 为 最 优 。 其 应 用 于 测试 集 的 结果 ,绝对 误差 均值 在 1. 85 左右 , 相 
对 误差 均值 约 为 0. 03 ,这 个 结果 比较 好 。 对 色 斑 比例 指标 建立 的 预测 模型 中 ,前 4 种 效果 
相近 ,M5 Rules 方法 的 结果 略 有 差别 。 这 5 种 方法 应 用 于 训练 集 的 结果 , M5 Rules 较 好 ， 
但 采用 10 交叉 验证 测试 方法 ,神经 网 络 的 预测 结果 更 优 , 绝 对 误差 均值 在 0.01 左右 。 但 由 
于 预测 目标 集中 在 比较 小 的 范围 内 ,而 特征 属性 区 分 能 力 有 限 ,预测 结果 并 不 能 很 好 的 拟 合 
到 准确 值 。 对 皮肤 水 润 程度 指标 建立 的 5 种 预测 模型 效果 也 相近 。 它 们 预测 的 绝对 误差 均 
值 在 9 左右 ,相对 误差 均值 约 为 0.2, 这 个 结果 不 太 理想 。 这 主要 是 由 于 数据 本 身 不 太 适 合 
预测 造成 的 。 

"68% 


17.74 51.08 84.42 
图 7.12 神经 网 络 方法 对 皮肤 水 润 指标 进行 仿真 的 结果 图 


7.6 小 结 


本 章 对 日 常生 活 中 皮肤 状况 预测 模型 研究 工作 进行 了 比较 详细 的 介绍 。 本 章 讨论 了 这 
一 研究 在 实际 日 用 化 妆 品 企业 的 应 用 背景 和 重要 意义 ,并 介绍 了 采用 数据 挖掘 方法 进行 研 
究 的 整体 思路 。 本 章 基 于 数据 挖掘 的 方法 研究 现状 ,介绍 了 研究 所 采用 的 实验 方法 与 得 到 
的 结果 ,并 进行 了 分 析 。 

在 研究 过 程 中 ,本 章 对 数据 分 布 情况 进行 了 介绍 ,并 给 出 了 数据 预 处 理 的 结果 。 预 处 理 
结果 表明 ,实验 数据 可 以 用 于 尝试 建立 预测 模型 。 本 童 对 于 皮肤 白 度 、 色 斑 比 例 和 皮肤 水 润 
程度 三 个 指标 分 别提 取 了 关键 特征 ,并 对 不 同 地 域 数据 不 同 划分 方法 和 不 同 特 征 提取 方法 
得 到 的 结果 进行 了 对 比分 析 。 在 此 基础 上 ,本 章 进一步 尝试 建立 多 种 回归 预测 模型 ,并 对 各 
类 模型 的 预测 效果 进行 了 比较 和 分 析 。 研 究 发 现 ,采用 神经 网 络 方法 建立 预测 模型 比较 合 
适 。 此 外 ,本 章 中 对 皮肤 白 度 建立 预测 模型 的 结果 比较 好 ,对 色 斑 比例 和 皮肤 水 润 程度 建立 
预测 模型 的 结果 尚 有 提高 的 空间 。 

本 阶段 针对 不 同 指标 提取 了 相关 的 关键 特征 ,并 根据 这 些 关 键 特征 尝试 建立 预测 模型 。 
在 下 一 步 工作 中 ,会 根据 相关 专家 对 所 提取 关键 特征 的 反馈 情况 进一步 完善 数据 预 处 理 方 
法 和 关键 特征 提取 算法 。 在 确定 关键 特征 后 ,会 对 预测 模型 进行 选择 和 完善 ,以 提高 预测 的 
准确 程度 。 

现 阶段 研究 表明 ,皮肤 白 度 ` 色 斑 比 例 和 皮肤 水 润 程度 三 个 预测 指标 的 情况 各 有 不 同 。 
本 章 由 此 提出 三 种 不 同 的 方式 ,作为 对 完善 预测 模型 的 展望 : 针对 皮肤 白 度 的 预测 ,可 以 考 
虑 采用 调整 模型 参数 的 方法 以 提高 性 能 ;针对 色 斑 比例 的 预测 ,可 以 考虑 采用 非 线性 变化 的 
方法 对 预测 属性 值 进行 变换 后 再 训练 模型 ,以 提高 预测 性 能 ;针对 皮肤 水 润 程度 的 预测 ,可 
以 考虑 采用 多 种 预测 方式 结合 的 方法 ,以 提高 预测 性 能 。 
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